five

kyujinpy/OpenOrca-ko-v3

收藏
Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kyujinpy/OpenOrca-ko-v3
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca数据集是一个基于FLAN Collection数据增强的集合,包含了约1M GPT-4补全和约3.2M GPT-3.5补全。该数据集按照Orca论文中的分布进行表格化,主要用于自然语言处理领域的研究和模型训练。数据集的结构包括唯一的标识符、系统提示、问题和响应字段。数据集的创建目的是为了提供一个增强的文本数据源,特别是通过GPT-3.5和GPT-4的详细推理能力来增强FLAN Collection数据。由于FLAN Collection数据的限制,部分数据点未能完全按照Orca论文中的分布生成。数据集的使用包括语言理解、自然语言处理、机器学习模型训练和性能评估。

OpenOrca数据集是一个基于FLAN Collection数据增强的集合,包含了约1M GPT-4补全和约3.2M GPT-3.5补全。该数据集按照Orca论文中的分布进行表格化,主要用于自然语言处理领域的研究和模型训练。数据集的结构包括唯一的标识符、系统提示、问题和响应字段。数据集的创建目的是为了提供一个增强的文本数据源,特别是通过GPT-3.5和GPT-4的详细推理能力来增强FLAN Collection数据。由于FLAN Collection数据的限制,部分数据点未能完全按照Orca论文中的分布生成。数据集的使用包括语言理解、自然语言处理、机器学习模型训练和性能评估。
提供机构:
kyujinpy
原始信息汇总

数据集概述

数据集名称

OpenOrca-Ko-v3

数据集组成

  1. NIV // 约1500个
  2. FLAN // 约9000个
  3. T0 // 约6000个
  4. CoT // 约2000个

数据集结构

数据实例

数据实例代表从FLAN集合中增强的条目,通过提交列出的问题给GPT-4或GPT-3.5,然后将响应输入到响应字段中。

数据字段

  1. id:唯一编号标识符,包含niv、t0、cot或flan之一,表示问题来源的FLAN集合子集。
  2. system_prompt:向GPT-3.5或GPT-4 API呈现的系统提示。
  3. question:FLAN集合提供的问题条目。
  4. response:向GPT-3.5或GPT-4查询得到的对该问题的响应。

数据分割

数据未分割。

数据集创建

创建理由

数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强FLAN集合的核心数据,依赖于GPT-3.5和GPT-4的详细逐步推理能力。

源数据

数据生成技术与Orca论文中概述的分布一致,除了以下情况:

  1. FLAN集合中没有足够的CoT数据来生成150K零样本条目。
  2. 使用HuggingFace上托管的预生成FLAN集合数据集。

数据集使用

使用案例

数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。

使用注意事项

由于这是一个正在进行中的数据集,建议定期检查更新和改进。此外,数据应按照Orca论文中概述的指南和建议使用。

数据集信息

特征

  • id:字符串类型
  • input:字符串类型
  • output:字符串类型
  • instruction:字符串类型

分割

  • train:41612250字节,19473个样本

大小

  • 下载大小:21614684字节
  • 数据集大小:41612250字节

许可证

cc-by-nc-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作