kyujinpy/OpenOrca-KO

Name: kyujinpy/OpenOrca-KO
Creator: kyujinpy
Published: 2023-10-12 19:55:47
License: 暂无描述

Hugging Face2023-10-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kyujinpy/OpenOrca-KO

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca-KO数据集是从OpenOrca数据集中采样并翻译成韩文的数据集，包含了约2万个样本。该数据集主要用于自然语言处理任务，如对话、文本分类、问答等。数据集的创建是为了提供一个增强的文本数据源，供研究人员和开发者使用。数据集的结构包括id、input、instruction和output等字段。

提供机构：

kyujinpy

原始信息汇总

数据集概述

名称: OpenOrca-KO

描述: OpenOrca-KO是OpenOrca数据集的一个子集，通过采样约2万个数据点并进行翻译得到。该数据集主要用于支持模型或数据集的创建，使用时需简单标注出处。

语言: 韩语

许可: MIT

大小: 10K<n<50K

任务类别:

对话系统
文本分类
令牌分类
表格问答
问答
零样本分类
摘要
特征提取
文本生成
文本到文本生成

数据集信息:

特征:
- id: 字符串类型
- input: 字符串类型
- instruction: 字符串类型
- output: 字符串类型
分割:
- train: 包含21632个示例，总字节数为44220539
下载大小: 22811589字节
数据集大小: 44220539字节

数据集结构

数据实例: 每个实例代表从FLAN集合中提取的问题，通过GPT-4或GPT-3.5进行增强，并将响应记录在响应字段中。
数据字段:
- id: 唯一编号标识，包含niv, t0, cot, 或 flan之一，表示来源的FLAN集合子混合。
- system_prompt: 提供给GPT-3.5或GPT-4 API的系统提示。
- question: 来自FLAN集合的问题条目。
- response: 通过查询GPT-3.5或GPT-4收到的对该问题的响应。

数据集创建

来源数据: 数据生成遵循Orca论文中概述的分布，使用HuggingFace上托管的预生成FLAN集合数据集。
数据增强: 通过将问题提交给GPT-4或GPT-3.5来增强FLAN集合数据，以获取详细的逐步推理能力。

数据集使用

用途: 用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。
使用注意事项: 由于数据集仍在进行中，建议定期检查更新和改进。使用时应遵循Orca论文中的指南和建议。

5,000+

优质数据集

54 个

任务类型

进入经典数据集