five

polinaeterna/OpenOrca

收藏
Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/polinaeterna/OpenOrca
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca数据集是一个增强的FLAN数据集合,目前包含约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集按照Orca论文中提出的分布进行了表格化处理,目前代表了完整预期数据集的部分完成,正在进行生成以扩展其范围。该数据主要用于自然语言处理领域的训练和评估。

OpenOrca数据集是一个增强的FLAN数据集合,目前包含约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集按照Orca论文中提出的分布进行了表格化处理,目前代表了完整预期数据集的部分完成,正在进行生成以扩展其范围。该数据主要用于自然语言处理领域的训练和评估。
提供机构:
polinaeterna
原始信息汇总

数据集概述

数据集简介

OpenOrca数据集是一个增强的FLAN数据集合,目前包含约100万条GPT-4完成和320万条GPT-3.5完成。该数据集与Orca论文中描述的分布尽可能一致,主要用于自然语言处理领域的训练和评估。

数据集属性

该数据集的贡献者包括Teknium、WingLian/Caseus、Eric Hartford等,以及AlignmentLab.ai的成员。特别感谢NanoBit和Caseus开发的Axolotl平台。

支持的任务和排行榜

该数据集支持多种任务,包括语言建模、文本生成和文本增强。它对于生成高性能模型检查点至关重要,这些模型在单元测试中表现出色。

语言

数据集主要使用英语。

数据集结构

数据实例

每个数据实例代表从FLAN集合中增强的条目,通过提交问题给GPT-4或GPT-3.5,并将响应输入到响应字段中。

数据字段

数据字段包括:

  1. id:唯一编号标识符,包含niv、t0、cot或flan,表示问题来源的FLAN集合子集。
  2. system_prompt:提供给GPT-3.5或GPT-4 API的系统提示。
  3. question:FLAN集合提供的问题条目。
  4. response:对问题的响应,来自GPT-3.5或GPT-4的查询。

数据分割

数据未分割。

数据集创建

创建理由

该数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强FLAN集合数据,利用GPT-3.5和GPT-4的详细推理能力。

源数据

数据生成遵循Orca论文中描述的分布,但有一些调整,例如使用了HuggingFace上托管的FLAN集合数据子集。

数据集使用

使用案例

该数据集可用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。

使用注意事项

由于该数据集仍在进行中,建议定期检查更新。使用时应遵循Orca论文中的指南和建议。

入门指南

该数据集可通过Hugging Face数据集库直接加载,建议使用流式加载。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作