traintogpb/aihub-koja-translation-integrated-small-100k
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koja-translation-integrated-small-100k
下载链接
链接失效反馈官方服务:
资源简介:
AI Hub Ko-Ja翻译数据集(集成版)是AI Hub的10个韩日翻译相关数据集的合并版本。数据集总共有4,339,465条数据,其中包含10,000条验证集和2,000条测试集。数据集分为三个规模:large-4.3m(使用全部合并数据,共4,327,465条)、base-1m(使用1,000,000条数据)和small-100k(使用100,000条数据)。此外,数据集还包含10个子集,每个子集的总大小、日语数据大小、URL和Datasetkey均在README中列出。
AI Hub Ko-Ja翻译数据集(集成版)是AI Hub的10个韩日翻译相关数据集的合并版本。数据集总共有4,339,465条数据,其中包含10,000条验证集和2,000条测试集。数据集分为三个规模:large-4.3m(使用全部合并数据,共4,327,465条)、base-1m(使用1,000,000条数据)和small-100k(使用100,000条数据)。此外,数据集还包含10个子集,每个子集的总大小、日语数据大小、URL和Datasetkey均在README中列出。
提供机构:
traintogpb
原始信息汇总
AI Hub Ko-Ja Translation Dataset (Integrated)
数据集概述
- 语言: 韩语 (ko), 日语 (ja)
- 许可: MIT
- 任务类别: 翻译
数据集组成
- 合并数据: 包含10个相关数据集的合并,总数据量为4,339,465条。
- 训练集划分:
- large-4.3m: 使用全部合并数据,共4,327,465条。
- base-1m: 使用合并数据中的100万条,共1,000,000条。
- small-100k: 使用合并数据中的10万条,共100,000条。
- 验证集与测试集: 分别包含10,000条和2,000条,适用于所有数据集大小。
子集详情
| 名称 | 总大小 | 日语大小 | 数据集键 (AIHub) |
|---|---|---|---|
| 한국어-일본어 번역 말뭉치 | 1350000 | 1350000 | 127 |
| 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 | 2700000 | 1343763 | 546 |
| 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 | 1487088 | 887425 | 71263 |
| 발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 | 82002 | 26990 | 71411 |
| 한국어-다국어(영어 제외) 번역 말뭉치(기술과학) | 270459 | 124142 | 71493 |
| 한국어-다국어 번역 말뭉치(기초과학) | 270317 | 81449 | 71496 |
| 한국어-다국어 번역 말뭉치(인문학) | 271721 | 80431 | 71498 |
| 다국어 통번역 낭독체 데이터 | 1468948 | 120168 | 71524 |
| 방송콘텐츠 한국어-아시아어 번역 말뭉치 | 820387 | 112978 | 71591 |
| AI 허브 데이터 활용을 위한 기계 번역말뭉치 | 2653948 | 212119 | 71593 |



