polinaeterna/OpenOrca
收藏Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/polinaeterna/OpenOrca
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca数据集是一个增强的FLAN数据集合,目前包含约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集按照Orca论文中提出的分布进行了表格化处理,目前代表了完整预期数据集的部分完成,正在进行生成以扩展其范围。该数据主要用于自然语言处理领域的训练和评估。
OpenOrca数据集是一个增强的FLAN数据集合,目前包含约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集按照Orca论文中提出的分布进行了表格化处理,目前代表了完整预期数据集的部分完成,正在进行生成以扩展其范围。该数据主要用于自然语言处理领域的训练和评估。
提供机构:
polinaeterna
原始信息汇总
数据集概述
数据集简介
OpenOrca数据集是一个增强的FLAN数据集合,目前包含约100万条GPT-4完成和320万条GPT-3.5完成。该数据集与Orca论文中描述的分布尽可能一致,主要用于自然语言处理领域的训练和评估。
数据集属性
该数据集的贡献者包括Teknium、WingLian/Caseus、Eric Hartford等,以及AlignmentLab.ai的成员。特别感谢NanoBit和Caseus开发的Axolotl平台。
支持的任务和排行榜
该数据集支持多种任务,包括语言建模、文本生成和文本增强。它对于生成高性能模型检查点至关重要,这些模型在单元测试中表现出色。
语言
数据集主要使用英语。
数据集结构
数据实例
每个数据实例代表从FLAN集合中增强的条目,通过提交问题给GPT-4或GPT-3.5,并将响应输入到响应字段中。
数据字段
数据字段包括:
- id:唯一编号标识符,包含niv、t0、cot或flan,表示问题来源的FLAN集合子集。
- system_prompt:提供给GPT-3.5或GPT-4 API的系统提示。
- question:FLAN集合提供的问题条目。
- response:对问题的响应,来自GPT-3.5或GPT-4的查询。
数据分割
数据未分割。
数据集创建
创建理由
该数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强FLAN集合数据,利用GPT-3.5和GPT-4的详细推理能力。
源数据
数据生成遵循Orca论文中描述的分布,但有一些调整,例如使用了HuggingFace上托管的FLAN集合数据子集。
数据集使用
使用案例
该数据集可用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。
使用注意事项
由于该数据集仍在进行中,建议定期检查更新。使用时应遵循Orca论文中的指南和建议。
入门指南
该数据集可通过Hugging Face数据集库直接加载,建议使用流式加载。



