five

Triangle104/Open-Orca

收藏
Hugging Face2024-08-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/Triangle104/Open-Orca
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca数据集是一个增强的FLAN Collection数据集合,目前包含约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集按照ORCA论文中的分布进行表格化处理,主要用于自然语言处理领域的训练和评估。数据集的结构包括数据实例、数据字段和数据分割,数据实例代表从FLAN集合中提取的问题,并通过GPT-4或GPT-3.5生成响应。数据字段包括唯一的ID、系统提示、问题和响应。数据集目前未进行分割,创建目的是为研究人员和开发者提供增强的文本数据资源。

The OpenOrca dataset is a collection of augmented FLAN data, currently consisting of approximately 1 million GPT-4 completions and 3.2 million GPT-3.5 completions. It aligns as closely as possible with the distributions outlined in the Orca paper and is primarily used for training and evaluation in the field of natural language processing. The dataset structure includes fields such as id, system_prompt, question, and response, and the data is unsplit. The creation of this dataset aims to provide researchers and developers with an enhanced source of text data, particularly by augmenting the core FLAN Collection data with the detailed step-by-step reasoning capabilities of GPT-3.5 and GPT-4.
提供机构:
Triangle104
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作