traintogpb/aihub-koen-translation-integrated-large-10m
收藏Hugging Face2024-01-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koen-translation-integrated-large-10m
下载链接
链接失效反馈官方服务:
资源简介:
AI Hub Ko-En翻译数据集(集成版)是由8个不同的韩英翻译数据集合并而成,总数据量为10,416,509条,按照8:1:1的比例分为训练集、验证集和测试集。数据集提供了三个不同规模的版本:base-10m(使用全部数据)、mini-1m(使用10%的数据)和tiny-100k(使用1%的数据)。每个子集的数据来源、总数据量、去重后的数据量以及使用的列都有详细说明。
AI Hub Ko-En翻译数据集(集成版)是由8个不同的韩英翻译数据集合并而成,总数据量为10,416,509条,按照8:1:1的比例分为训练集、验证集和测试集。数据集提供了三个不同规模的版本:base-10m(使用全部数据)、mini-1m(使用10%的数据)和tiny-100k(使用1%的数据)。每个子集的数据来源、总数据量、去重后的数据量以及使用的列都有详细说明。
提供机构:
traintogpb
原始信息汇总
AI Hub 한-영 번역 데이터셋 (통합)
AI Hub의 8개 한-영 번역 관련 데이터셋을 병합한 데이터셋입니다. 병합 시 총 데이터 개수는 10,416,509개이며, train / validation / test는 8:1:1 비율로 분할되었습니다.
데이터셋 크기
- base-10m: 병합 데이터 100% 사용, 총 10,416,509개
- mini-1m: 병합 데이터 10% 사용 (base-10m의 각 세트 내에서 10% 임의 선택), 총 1,041,651개
- tiny-100k: 병합 데이터 1% 사용 (base-10m의 각 세트 내에서 1% 임의 선택), 총 104,165개
하위 데이터셋
활용한 데이터셋 목록은 다음과 같습니다:
-
전문분야 한영 말뭉치 (111)
- 총 개수: 1,350,000
- 중복 제거 후 개수: 1,350,000
- 사용 칼럼: 한국어, 영어
-
한국어-영어 번역 말뭉치(기술과학) (124)
- 총 개수: 1,344,631
- 중복 제거 후 개수: 1,344,631
- 사용 칼럼: ko, en
-
한국어-영어 번역 말뭉치(사회과학) (125)
- 총 개수: 1,361,845
- 중복 제거 후 개수: 1,361,825
- 사용 칼럼: ko, en
-
한국어-영어 번역(병렬) 말뭉치 (126)
- 총 개수: 1,602,418
- 중복 제거 후 개수: 1,599,924
- 사용 칼럼: 원문, 번역문
-
산업정보 연계 주요국 특허 영-한 데이터 (563)
- 총 개수: 359,999
- 중복 제거 후 개수: 358,424
- 사용 칼럼: astrt_cont_kor, astrt_cont_eng
-
일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터 (71265)
- 총 개수: 2,700,345
- 중복 제거 후 개수: 2,486,058
- 사용 칼럼: ko, en
-
기술과학 분야 한-영 번역 병렬 말뭉치 데이터 (71266)
- 총 개수: 1,350,162
- 중복 제거 후 개수: 1,328,987
- 사용 칼럼: ko, en
-
방송콘텐츠 한국어-영어 번역 말뭉치 (71382)
- 총 개수: 587,084
- 중복 제거 후 개수: 586,660
- 사용 칼럼: 원문, 최종번역문



