squarelike/OpenOrca-gugugo-ko
收藏Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/squarelike/OpenOrca-gugugo-ko
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca数据集是一个增强的FLAN集合数据,包含了约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集主要用于自然语言处理领域的训练和评估,支持多种任务,包括语言建模、文本生成和文本增强。数据集的结构包括数据实例、数据字段和数据分割,数据实例代表从FLAN集合中增强的条目,数据字段包括唯一标识符、系统提示、问题和响应。数据集的创建目的是为研究人员和开发者提供增强的文本数据源,数据生成过程与Orca论文中概述的分布保持一致。
提供机构:
squarelike
原始信息汇总
OpenOrca 한국어 번역 데이터셋
数据集概述
- 语言: 韩语
- 许可证: MIT
- 任务类别: 对话系统、文本分类、标记分类、表格问答、问答系统、零样本分类、摘要生成、特征提取、文本生成、文本到文本生成
- 数据集名称: OpenOrca
- 数据规模: 10M<n<100M
数据集详情
- 数据来源: 使用 Gugugo-koen-7B-V1.1 对 OpenOrca 数据集进行翻译。
- 翻译进度:
- GPT4 生成物约 100 万个中约 64 万个已完成翻译
- GPT3.5 生成物约 350 万个中约 159 万个已完成翻译
数据集结构
- 数据实例: 数据实例代表从 FLAN 集合中增强的条目,通过将列出的问题提交给 GPT-4 或 GPT-3.5,然后将响应输入到响应字段中。
- 数据字段:
- id: 唯一编号标识符,包括 niv, t0, cot, 或 flan 以表示 question 来源的 FLAN 集合子混合。
- system_prompt: 数据点呈现给 GPT-3.5 或 GPT-4 API 的系统提示。
- question: FLAN 集合提供的问答条目。
- response: 对问题从 GPT-3.5 或 GPT-4 查询得到的响应。
- 数据分割: 数据未分割。
数据集创建
- 创建理由: 该数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强依赖于 GPT-3.5 和 GPT-4 详细步骤推理能力的 FLAN 集合数据。
- 源数据: 数据生成技术与 Orca 论文中概述的分布一致,但有以下例外:
- FLAN 集合中没有足够的 CoT 数据来生成 150K 零样本条目。
- 使用 HuggingFace 上托管的预生成 FLAN 集合数据集,例如 conceptofmind/flan2021。
数据集使用
- 使用案例: 该数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。
- 使用注意事项: 由于这是一个正在进行中的数据集,建议定期检查更新和改进。此外,数据应按照 Orca 论文中概述的指南和建议使用。
引用
bibtex @misc{OpenOrca, title = {OpenOrca: An Open Dataset of GPT Augmented FLAN Reasoning Traces}, author = {Wing Lian and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, journal = {HuggingFace repository}, howpublished = {url{https://https://huggingface.co/Open-Orca/OpenOrca}}, }



