kyujinpy/OpenOrca-KO
收藏Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kyujinpy/OpenOrca-KO
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca-KO数据集是从OpenOrca数据集中采样并翻译成韩文的数据集,包含了约2万个样本。该数据集主要用于自然语言处理任务,如对话、文本分类、问答等。数据集的创建是为了提供一个增强的文本数据源,供研究人员和开发者使用。数据集的结构包括id、input、instruction和output等字段。
OpenOrca-KO数据集是从OpenOrca数据集中采样并翻译成韩文的数据集,包含了约2万个样本。该数据集主要用于自然语言处理任务,如对话、文本分类、问答等。数据集的创建是为了提供一个增强的文本数据源,供研究人员和开发者使用。数据集的结构包括id、input、instruction和output等字段。
提供机构:
kyujinpy
原始信息汇总
数据集概述
名称: OpenOrca-KO
描述: OpenOrca-KO是OpenOrca数据集的一个子集,通过采样约2万个数据点并进行翻译得到。该数据集主要用于支持模型或数据集的创建,使用时需简单标注出处。
语言: 韩语
许可: MIT
大小: 10K<n<50K
任务类别:
- 对话系统
- 文本分类
- 令牌分类
- 表格问答
- 问答
- 零样本分类
- 摘要
- 特征提取
- 文本生成
- 文本到文本生成
数据集信息:
- 特征:
- id: 字符串类型
- input: 字符串类型
- instruction: 字符串类型
- output: 字符串类型
- 分割:
- train: 包含21632个示例,总字节数为44220539
- 下载大小: 22811589字节
- 数据集大小: 44220539字节
数据集结构
- 数据实例: 每个实例代表从FLAN集合中提取的问题,通过GPT-4或GPT-3.5进行增强,并将响应记录在响应字段中。
- 数据字段:
- id: 唯一编号标识,包含niv, t0, cot, 或 flan之一,表示来源的FLAN集合子混合。
- system_prompt: 提供给GPT-3.5或GPT-4 API的系统提示。
- question: 来自FLAN集合的问题条目。
- response: 通过查询GPT-3.5或GPT-4收到的对该问题的响应。
数据集创建
- 来源数据: 数据生成遵循Orca论文中概述的分布,使用HuggingFace上托管的预生成FLAN集合数据集。
- 数据增强: 通过将问题提交给GPT-4或GPT-3.5来增强FLAN集合数据,以获取详细的逐步推理能力。
数据集使用
- 用途: 用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。
- 使用注意事项: 由于数据集仍在进行中,建议定期检查更新和改进。使用时应遵循Orca论文中的指南和建议。



