traintogpb/aihub-kozh-translation-integrated-large-5.9m
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-kozh-translation-integrated-large-5.9m
下载链接
链接失效反馈官方服务:
资源简介:
AI Hub提供的韩语-中文翻译数据集集成,包含10个相关数据集的合并。数据集总数为5,934,596个,其中10,000个验证集和2,000个测试集,适用于不同规模的数据集(large-5.9m, base-1m, small-100k)。
AI Hub提供的韩语-中文翻译数据集集成,包含10个相关数据集的合并。数据集总数为5,934,596个,其中10,000个验证集和2,000个测试集,适用于不同规模的数据集(large-5.9m, base-1m, small-100k)。
提供机构:
traintogpb
原始信息汇总
AI Hub Ko-Zh Translation Dataset (Integrated)
数据集概述
- 语言: 韩语 (ko), 中文 (zh)
- 许可: MIT
- 任务类别: 翻译
数据集组成
- 合并数据: 由10个相关数据集合并而成,总数据量为5,934,596个。
- 训练集划分:
- large-5.9m (train): 使用合并数据的100%,共5,922,596个。
- base-1m (train): 使用合并数据中的1M个,共1,000,000个。
- small-100k (train): 使用合并数据中的100K个,共100,000个。
- 验证集与测试集: 分别有10,000个验证集和2,000个测试集,适用于所有数据规模。
子集详情
| 名称 | 总大小 | 中文大小 | 数据集键 (AIHub) |
|---|---|---|---|
| 한국어-중국어 번역 말뭉치(기술과학) | 1170000 | 1170000 | 128 |
| 한국어-중국어 번역 말뭉치(사회과학) | 1170000 | 1170000 | 129 |
| 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 | 2700000 | 1349470 | 546 |
| 전문분야 영-한, 중-한 번역 말뭉치(식품) | 1350000 | 1326837 | 71262 |
| 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 | 1487088 | 367921 | 71263 |
| 발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 | 82002 | 26989 | 71411 |
| 한국어-다국어 번역 말뭉치(기술과학) | 270459 | 146317 | 71493 |
| 한국어-다국어 번역 말뭉치(기초과학) | 270317 | 84419 | 71496 |
| 한국어-다국어 번역 말뭉치(인문학) | 271721 | 80375 | 71498 |
| 방송콘텐츠 한국어-아시아어 번역 말뭉치 | 820387 | 112978 | 71591 |
| AI 허브 데이터 활용을 위한 기계 번역말뭉치 | 2653948 | 212268 | 71593 |



