five

squarelike/OpenOrca-gugugo-ko

收藏
Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/squarelike/OpenOrca-gugugo-ko
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca数据集是一个增强的FLAN集合数据,包含了约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集主要用于自然语言处理领域的训练和评估,支持多种任务,包括语言建模、文本生成和文本增强。数据集的结构包括数据实例、数据字段和数据分割,数据实例代表从FLAN集合中增强的条目,数据字段包括唯一标识符、系统提示、问题和响应。数据集的创建目的是为研究人员和开发者提供增强的文本数据源,数据生成过程与Orca论文中概述的分布保持一致。
提供机构:
squarelike
原始信息汇总

OpenOrca 한국어 번역 데이터셋

数据集概述

  • 语言: 韩语
  • 许可证: MIT
  • 任务类别: 对话系统、文本分类、标记分类、表格问答、问答系统、零样本分类、摘要生成、特征提取、文本生成、文本到文本生成
  • 数据集名称: OpenOrca
  • 数据规模: 10M<n<100M

数据集详情

  • 数据来源: 使用 Gugugo-koen-7B-V1.1OpenOrca 数据集进行翻译。
  • 翻译进度:
    • GPT4 生成物约 100 万个中约 64 万个已完成翻译
    • GPT3.5 生成物约 350 万个中约 159 万个已完成翻译

数据集结构

  • 数据实例: 数据实例代表从 FLAN 集合中增强的条目,通过将列出的问题提交给 GPT-4 或 GPT-3.5,然后将响应输入到响应字段中。
  • 数据字段:
    1. id: 唯一编号标识符,包括 niv, t0, cot, 或 flan 以表示 question 来源的 FLAN 集合子混合。
    2. system_prompt: 数据点呈现给 GPT-3.5 或 GPT-4 API 的系统提示。
    3. question: FLAN 集合提供的问答条目。
    4. response: 对问题从 GPT-3.5 或 GPT-4 查询得到的响应。
  • 数据分割: 数据未分割。

数据集创建

  • 创建理由: 该数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强依赖于 GPT-3.5 和 GPT-4 详细步骤推理能力的 FLAN 集合数据。
  • 源数据: 数据生成技术与 Orca 论文中概述的分布一致,但有以下例外:
    1. FLAN 集合中没有足够的 CoT 数据来生成 150K 零样本条目。
    2. 使用 HuggingFace 上托管的预生成 FLAN 集合数据集,例如 conceptofmind/flan2021

数据集使用

  • 使用案例: 该数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。
  • 使用注意事项: 由于这是一个正在进行中的数据集,建议定期检查更新和改进。此外,数据应按照 Orca 论文中概述的指南和建议使用。

引用

bibtex @misc{OpenOrca, title = {OpenOrca: An Open Dataset of GPT Augmented FLAN Reasoning Traces}, author = {Wing Lian and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, journal = {HuggingFace repository}, howpublished = {url{https://https://huggingface.co/Open-Orca/OpenOrca}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作