traintogpb/aihub-koen-translation-integrated-base-1m

Name: traintogpb/aihub-koen-translation-integrated-base-1m
Creator: traintogpb
Published: 2024-01-05 04:17:17
License: 暂无描述

Hugging Face2024-01-05 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/traintogpb/aihub-koen-translation-integrated-base-1m

下载链接

链接失效反馈

官方服务：

资源简介：

AI Hub Ko-En Translation Dataset (Integrated) 是一个整合了8个不同韩英翻译相关数据集的综合数据集，总数据量为10,416,509条。数据集按照8:1:1的比例划分为训练集、验证集和测试集。此外，还提供了三个子集：base-10m、mini-1m和tiny-100k，分别使用了100%、10%和1%的数据。每个子数据集的来源、数据量、去重后的数据量以及使用的列都有详细说明。

提供机构：

traintogpb

原始信息汇总

AI Hub Ko-En Translation Dataset (Integrated)

数据集概述

AI Hub的韩-英翻译相关数据集8个合并后的资料。合并时总数据数量为10,416,509个，train / validation / test按8:1:1比例分割。

数据集版本

base-10m: 合并数据100%使用，共10,416,509个
mini-1m: 合并数据10%使用（base-10m的各集合内随机选择10%），共1,041,651个
tiny-100k: 合并数据1%使用（base-10m的各集合内随机选择1%），共104,165个

子集详情

使用的数据集列表如下，数据集名称旁的编号是aihubshell中的datasetkey。

전문분야 한영 말뭉치 (111)
- 总数量: 1,350,000
- 去重后数量: 1,350,000
- 使用列: 한국어, 영어
한국어-영어 번역 말뭉치(기술과학) (124)
- 总数量: 1,344,631
- 去重后数量: 1,344,631
- 使用列: ko, en
한국어-영어 번역 말뭉치(사회과학) (125)
- 总数量: 1,361,845
- 去重后数量: 1,361,825
- 使用列: ko, en
한국어-영어 번역(병렬) 말뭉치 (126)
- 总数量: 1,602,418
- 去重后数量: 1,599,924
- 使用列: 원문, 번역문
산업정보 연계 주요국 특허 영-한 데이터 (563)
- 总数量: 359,999
- 去重后数量: 358,424
- 使用列: astrt_cont_kor, astrt_cont_eng
일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터 (71265)
- 总数量: 2,700,345
- 去重后数量: 2,486,058
- 使用列: ko, en
기술과학 분야 한-영 번역 병렬 말뭉치 데이터 (71266)
- 总数量: 1,350,162
- 去重后数量: 1,328,987
- 使用列: ko, en
방송콘텐츠 한국어-영어 번역 말뭉치 (71382)
- 总数量: 587,084
- 去重后数量: 586,660
- 使用列: 원문, 최종번역문

5,000+

优质数据集

54 个

任务类型

进入经典数据集