appleparan/OpenOrca-Ko-En

Name: appleparan/OpenOrca-Ko-En
Creator: appleparan
Published: 2024-03-04 15:28:34
License: 暂无描述

Hugging Face2024-03-04 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/appleparan/OpenOrca-Ko-En

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca-Ko-En数据集是由kyujinpy/OpenOrca-KO和Open-Orca/OpenOrca两个数据集合并而成，主要包含韩语和英语的文本数据。数据集的特征包括id、system_prompt_ko、question_ko、response_ko、system_prompt_en、question_en和response_en。该数据集用于多种自然语言处理任务，如文本分类、标记分类、问答等。数据集的大小在10K到100K之间，主要用于训练和评估NLP模型。

The OpenOrca-Ko-En dataset is a multilingual (English and Korean) natural language processing dataset, created by filtering and merging common data from the OpenOrca and OpenOrca-KO datasets. It includes system prompts, questions, and responses in both Korean and English, used for various NLP tasks such as text classification, question answering, and text generation. The dataset size ranges from 10K to 100K, containing approximately 19284 training samples.

提供机构：

appleparan

原始信息汇总

OpenOrca-Ko-En 数据集概述

基本信息

语言: 英语和韩语
许可证: MIT
数据量: 10K<n<100K
任务类别:
- 文本分类
- 标记分类
- 表格问答
- 问答
- 零样本分类
- 摘要生成
- 特征提取
- 文本生成
- 文本到文本生成

数据集结构

特征

id: 字符串类型
system_prompt_ko: 字符串类型
question_ko: 字符串类型
response_ko: 字符串类型
system_prompt_en: 字符串类型
question_en: 字符串类型
response_en: 字符串类型

数据分割

训练集:
- 字节数: 76148701
- 样本数: 19284

数据大小

下载大小: 41002495 字节
数据集大小: 76148701 字节

配置

默认配置:
- 数据文件:
  - 分割: 训练
  - 路径: data/train-*

数据集创建

数据来源:
- kyujinpy/OpenOrca-KO 和 Open-Orca/OpenOrca 的共同数据过滤和合并。
数据列调整:
- 调整为 system_prompt_{ko/en}, question_{ko/en}, response_{ko/en}。
数据去重:
- 移除重复的 id，导致数据量减少。

数据集使用

数据集创建脚本:
- 脚本链接
引用要求:
- 使用数据集创建模型或数据集时，需同时引用上述数据集。

数据集详情

NIV: 1551 个 (OpenOrca-KO: 1571 个)
FLAN: 9338 个 (OpenOrca-KO: 9434 个)
T0: 6303 个 (OpenOrca-KO: 6351 个)
CoT: 2092 个 (OpenOrca-KO: 2117 个)

5,000+

优质数据集

54 个

任务类型

进入经典数据集