five

kyujinpy/OpenOrca-KO

收藏
Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kyujinpy/OpenOrca-KO
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca-KO数据集是从OpenOrca数据集中采样并翻译成韩文的数据集,包含了约2万个样本。该数据集主要用于自然语言处理任务,如对话、文本分类、问答等。数据集的创建是为了提供一个增强的文本数据源,供研究人员和开发者使用。数据集的结构包括id、input、instruction和output等字段。

OpenOrca-KO数据集是从OpenOrca数据集中采样并翻译成韩文的数据集,包含了约2万个样本。该数据集主要用于自然语言处理任务,如对话、文本分类、问答等。数据集的创建是为了提供一个增强的文本数据源,供研究人员和开发者使用。数据集的结构包括id、input、instruction和output等字段。
提供机构:
kyujinpy
原始信息汇总

数据集概述

名称: OpenOrca-KO

描述: OpenOrca-KO是OpenOrca数据集的一个子集,通过采样约2万个数据点并进行翻译得到。该数据集主要用于支持模型或数据集的创建,使用时需简单标注出处。

语言: 韩语

许可: MIT

大小: 10K<n<50K

任务类别:

  • 对话系统
  • 文本分类
  • 令牌分类
  • 表格问答
  • 问答
  • 零样本分类
  • 摘要
  • 特征提取
  • 文本生成
  • 文本到文本生成

数据集信息:

  • 特征:
    • id: 字符串类型
    • input: 字符串类型
    • instruction: 字符串类型
    • output: 字符串类型
  • 分割:
    • train: 包含21632个示例,总字节数为44220539
  • 下载大小: 22811589字节
  • 数据集大小: 44220539字节

数据集结构

  • 数据实例: 每个实例代表从FLAN集合中提取的问题,通过GPT-4或GPT-3.5进行增强,并将响应记录在响应字段中。
  • 数据字段:
    • id: 唯一编号标识,包含niv, t0, cot, 或 flan之一,表示来源的FLAN集合子混合。
    • system_prompt: 提供给GPT-3.5或GPT-4 API的系统提示。
    • question: 来自FLAN集合的问题条目。
    • response: 通过查询GPT-3.5或GPT-4收到的对该问题的响应。

数据集创建

  • 来源数据: 数据生成遵循Orca论文中概述的分布,使用HuggingFace上托管的预生成FLAN集合数据集。
  • 数据增强: 通过将问题提交给GPT-4或GPT-3.5来增强FLAN集合数据,以获取详细的逐步推理能力。

数据集使用

  • 用途: 用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。
  • 使用注意事项: 由于数据集仍在进行中,建议定期检查更新和改进。使用时应遵循Orca论文中的指南和建议。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作