kyujinpy/OpenOrca-ko-v3

Name: kyujinpy/OpenOrca-ko-v3
Creator: kyujinpy
Published: 2023-11-01 14:21:06
License: 暂无描述

Hugging Face2023-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kyujinpy/OpenOrca-ko-v3

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca数据集是一个基于FLAN Collection数据增强的集合，包含了约1M GPT-4补全和约3.2M GPT-3.5补全。该数据集按照Orca论文中的分布进行表格化，主要用于自然语言处理领域的研究和模型训练。数据集的结构包括唯一的标识符、系统提示、问题和响应字段。数据集的创建目的是为了提供一个增强的文本数据源，特别是通过GPT-3.5和GPT-4的详细推理能力来增强FLAN Collection数据。由于FLAN Collection数据的限制，部分数据点未能完全按照Orca论文中的分布生成。数据集的使用包括语言理解、自然语言处理、机器学习模型训练和性能评估。

提供机构：

kyujinpy

原始信息汇总

数据集概述

数据集名称

OpenOrca-Ko-v3

数据集组成

NIV // 约1500个
FLAN // 约9000个
T0 // 约6000个
CoT // 约2000个

数据集结构

数据实例

数据实例代表从FLAN集合中增强的条目，通过提交列出的问题给GPT-4或GPT-3.5，然后将响应输入到响应字段中。

数据字段

id：唯一编号标识符，包含niv、t0、cot或flan之一，表示问题来源的FLAN集合子集。
system_prompt：向GPT-3.5或GPT-4 API呈现的系统提示。
question：FLAN集合提供的问题条目。
response：向GPT-3.5或GPT-4查询得到的对该问题的响应。

数据分割

数据未分割。

数据集创建

创建理由

数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强FLAN集合的核心数据，依赖于GPT-3.5和GPT-4的详细逐步推理能力。

源数据

数据生成技术与Orca论文中概述的分布一致，除了以下情况：

FLAN集合中没有足够的CoT数据来生成150K零样本条目。
使用HuggingFace上托管的预生成FLAN集合数据集。

数据集使用

使用案例

数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。

使用注意事项

由于这是一个正在进行中的数据集，建议定期检查更新和改进。此外，数据应按照Orca论文中概述的指南和建议使用。

数据集信息

特征

id：字符串类型
input：字符串类型
output：字符串类型
instruction：字符串类型

分割

train：41612250字节，19473个样本

大小

下载大小：21614684字节
数据集大小：41612250字节

许可证

cc-by-nc-4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集