squarelike/OpenOrca-gugugo-ko

Name: squarelike/OpenOrca-gugugo-ko
Creator: squarelike
Published: 2023-11-12 22:41:06
License: 暂无描述

Hugging Face2023-11-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/squarelike/OpenOrca-gugugo-ko

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca数据集是一个增强的FLAN集合数据，包含了约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集主要用于自然语言处理领域的训练和评估，支持多种任务，包括语言建模、文本生成和文本增强。数据集的结构包括数据实例、数据字段和数据分割，数据实例代表从FLAN集合中增强的条目，数据字段包括唯一标识符、系统提示、问题和响应。数据集的创建目的是为研究人员和开发者提供增强的文本数据源，数据生成过程与Orca论文中概述的分布保持一致。

提供机构：

squarelike

原始信息汇总

OpenOrca 한국어 번역 데이터셋

数据集概述

语言: 韩语
许可证: MIT
任务类别: 对话系统、文本分类、标记分类、表格问答、问答系统、零样本分类、摘要生成、特征提取、文本生成、文本到文本生成
数据集名称: OpenOrca
数据规模: 10M<n<100M

数据集详情

数据来源: 使用 Gugugo-koen-7B-V1.1 对 OpenOrca 数据集进行翻译。
翻译进度:
- GPT4 生成物约 100 万个中约 64 万个已完成翻译
- GPT3.5 生成物约 350 万个中约 159 万个已完成翻译

数据集结构

数据实例: 数据实例代表从 FLAN 集合中增强的条目，通过将列出的问题提交给 GPT-4 或 GPT-3.5，然后将响应输入到响应字段中。
数据字段:
1. id: 唯一编号标识符，包括 niv, t0, cot, 或 flan 以表示 question 来源的 FLAN 集合子混合。
2. system_prompt: 数据点呈现给 GPT-3.5 或 GPT-4 API 的系统提示。
3. question: FLAN 集合提供的问答条目。
4. response: 对问题从 GPT-3.5 或 GPT-4 查询得到的响应。
数据分割: 数据未分割。

数据集创建

创建理由: 该数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强依赖于 GPT-3.5 和 GPT-4 详细步骤推理能力的 FLAN 集合数据。
源数据: 数据生成技术与 Orca 论文中概述的分布一致，但有以下例外：
1. FLAN 集合中没有足够的 CoT 数据来生成 150K 零样本条目。
2. 使用 HuggingFace 上托管的预生成 FLAN 集合数据集，例如 conceptofmind/flan2021。

数据集使用

使用案例: 该数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。
使用注意事项: 由于这是一个正在进行中的数据集，建议定期检查更新和改进。此外，数据应按照 Orca 论文中概述的指南和建议使用。

引用

bibtex @misc{OpenOrca, title = {OpenOrca: An Open Dataset of GPT Augmented FLAN Reasoning Traces}, author = {Wing Lian and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, journal = {HuggingFace repository}, howpublished = {url{https://https://huggingface.co/Open-Orca/OpenOrca}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集