kyujinpy/OpenOrca-ko-v3
收藏Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kyujinpy/OpenOrca-ko-v3
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca数据集是一个基于FLAN Collection数据增强的集合,包含了约1M GPT-4补全和约3.2M GPT-3.5补全。该数据集按照Orca论文中的分布进行表格化,主要用于自然语言处理领域的研究和模型训练。数据集的结构包括唯一的标识符、系统提示、问题和响应字段。数据集的创建目的是为了提供一个增强的文本数据源,特别是通过GPT-3.5和GPT-4的详细推理能力来增强FLAN Collection数据。由于FLAN Collection数据的限制,部分数据点未能完全按照Orca论文中的分布生成。数据集的使用包括语言理解、自然语言处理、机器学习模型训练和性能评估。
OpenOrca数据集是一个基于FLAN Collection数据增强的集合,包含了约1M GPT-4补全和约3.2M GPT-3.5补全。该数据集按照Orca论文中的分布进行表格化,主要用于自然语言处理领域的研究和模型训练。数据集的结构包括唯一的标识符、系统提示、问题和响应字段。数据集的创建目的是为了提供一个增强的文本数据源,特别是通过GPT-3.5和GPT-4的详细推理能力来增强FLAN Collection数据。由于FLAN Collection数据的限制,部分数据点未能完全按照Orca论文中的分布生成。数据集的使用包括语言理解、自然语言处理、机器学习模型训练和性能评估。
提供机构:
kyujinpy
原始信息汇总
数据集概述
数据集名称
OpenOrca-Ko-v3
数据集组成
- NIV // 约1500个
- FLAN // 约9000个
- T0 // 约6000个
- CoT // 约2000个
数据集结构
数据实例
数据实例代表从FLAN集合中增强的条目,通过提交列出的问题给GPT-4或GPT-3.5,然后将响应输入到响应字段中。
数据字段
id:唯一编号标识符,包含niv、t0、cot或flan之一,表示问题来源的FLAN集合子集。system_prompt:向GPT-3.5或GPT-4 API呈现的系统提示。question:FLAN集合提供的问题条目。response:向GPT-3.5或GPT-4查询得到的对该问题的响应。
数据分割
数据未分割。
数据集创建
创建理由
数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强FLAN集合的核心数据,依赖于GPT-3.5和GPT-4的详细逐步推理能力。
源数据
数据生成技术与Orca论文中概述的分布一致,除了以下情况:
- FLAN集合中没有足够的CoT数据来生成150K零样本条目。
- 使用HuggingFace上托管的预生成FLAN集合数据集。
数据集使用
使用案例
数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。
使用注意事项
由于这是一个正在进行中的数据集,建议定期检查更新和改进。此外,数据应按照Orca论文中概述的指南和建议使用。
数据集信息
特征
id:字符串类型input:字符串类型output:字符串类型instruction:字符串类型
分割
train:41612250字节,19473个样本
大小
- 下载大小:21614684字节
- 数据集大小:41612250字节
许可证
cc-by-nc-4.0



