traintogpb/aihub-koen-translation-integrated-base-1m
收藏Hugging Face2024-01-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koen-translation-integrated-base-1m
下载链接
链接失效反馈官方服务:
资源简介:
AI Hub Ko-En Translation Dataset (Integrated) 是一个整合了8个不同韩英翻译相关数据集的综合数据集,总数据量为10,416,509条。数据集按照8:1:1的比例划分为训练集、验证集和测试集。此外,还提供了三个子集:base-10m、mini-1m和tiny-100k,分别使用了100%、10%和1%的数据。每个子数据集的来源、数据量、去重后的数据量以及使用的列都有详细说明。
AI Hub Ko-En Translation Dataset (Integrated) 是一个整合了8个不同韩英翻译相关数据集的综合数据集,总数据量为10,416,509条。数据集按照8:1:1的比例划分为训练集、验证集和测试集。此外,还提供了三个子集:base-10m、mini-1m和tiny-100k,分别使用了100%、10%和1%的数据。每个子数据集的来源、数据量、去重后的数据量以及使用的列都有详细说明。
提供机构:
traintogpb
原始信息汇总
AI Hub Ko-En Translation Dataset (Integrated)
数据集概述
AI Hub的韩-英翻译相关数据集8个合并后的资料。合并时总数据数量为10,416,509个,train / validation / test按8:1:1比例分割。
数据集版本
- base-10m: 合并数据100%使用,共10,416,509个
- mini-1m: 合并数据10%使用(base-10m的各集合内随机选择10%),共1,041,651个
- tiny-100k: 合并数据1%使用(base-10m的各集合内随机选择1%),共104,165个
子集详情
使用的数据集列表如下,数据集名称旁的编号是aihubshell中的datasetkey。
-
전문분야 한영 말뭉치 (111)
- 总数量: 1,350,000
- 去重后数量: 1,350,000
- 使用列: 한국어, 영어
-
한국어-영어 번역 말뭉치(기술과학) (124)
- 总数量: 1,344,631
- 去重后数量: 1,344,631
- 使用列: ko, en
-
한국어-영어 번역 말뭉치(사회과학) (125)
- 总数量: 1,361,845
- 去重后数量: 1,361,825
- 使用列: ko, en
-
한국어-영어 번역(병렬) 말뭉치 (126)
- 总数量: 1,602,418
- 去重后数量: 1,599,924
- 使用列: 원문, 번역문
-
산업정보 연계 주요국 특허 영-한 데이터 (563)
- 总数量: 359,999
- 去重后数量: 358,424
- 使用列: astrt_cont_kor, astrt_cont_eng
-
일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터 (71265)
- 总数量: 2,700,345
- 去重后数量: 2,486,058
- 使用列: ko, en
-
기술과학 분야 한-영 번역 병렬 말뭉치 데이터 (71266)
- 总数量: 1,350,162
- 去重后数量: 1,328,987
- 使用列: ko, en
-
방송콘텐츠 한국어-영어 번역 말뭉치 (71382)
- 总数量: 587,084
- 去重后数量: 586,660
- 使用列: 원문, 최종번역문



