traintogpb/aihub-koja-translation-integrated-large-4.3m
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koja-translation-integrated-large-4.3m
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- translation
language:
- ko
- ja
---
### AI Hub Ko-Ja Translation Dataset (Integrated)
AI Hub의 한-일 번역 관련 데이터셋 10개를 병합한 자료입니다. 병합 시 총 데이터 개수는 4,339,465개이며, 이중 10,000개의 validation set와 2,000개의 test set가 분리되어 모든 데이터 사이즈(large-4.3m, base-1m, small-100k)에서 동일하게 사용됩니다.
- large-4.3m (train): 병합 데이터 100% 사용; 총 4,327,465개
- base-1m (train): 병합 데이터 중 1M개 사용; 총 1,000,000개
- small-100k (train): 병합 데이터 중 100K개 사용; 총 100,000개
### Subsets
| Name | Total Size | Japanese Size (Utilized Only) | URL | Datasetkey (AIHub) |
|---|---|---|---|---|
| 한국어-일본어 번역 말뭉치 | 1350000 | 1350000 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=127) | 127 |
| 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 | 2700000 | 1343763 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=546) | 546 |
| 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 | 1487088 | 887425 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71263) | 71263 |
| 발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 | 82002 | 26990 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71411) | 71411 |
| 한국어-다국어(영어 제외) 번역 말뭉치(기술과학) | 270459 | 124142 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71493) | 71493 |
| 한국어-다국어 번역 말뭉치(기초과학) | 270317 | 81449 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71496) | 71496 |
| 한국어-다국어 번역 말뭉치(인문학) | 271721 | 80431 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71498) | 71498 |
| 다국어 통번역 낭독체 데이터 | 1468948 | 120168 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71524) | 71524 |
| 방송콘텐츠 한국어-아시아어 번역 말뭉치 | 820387 | 112978 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71591) | 71591 |
| AI 허브 데이터 활용을 위한 기계 번역말뭉치 | 2653948 | 212119 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71593) | 71593 |
提供机构:
traintogpb
原始信息汇总
AI Hub Ko-Ja Translation Dataset (Integrated)
概述: AI Hub整合了10个与韩日翻译相关的数据集,总数据量为4,339,465条。其中,10,000条作为验证集,2,000条作为测试集,适用于所有数据规模(large-4.3m, base-1m, small-100k)。
数据规模详情:
- large-4.3m (train): 使用全部合并数据,总计4,327,465条。
- base-1m (train): 从合并数据中选取1M条,总计1,000,000条。
- small-100k (train): 从合并数据中选取100K条,总计100,000条。
子集详情
| Name | Total Size | Japanese Size | Datasetkey (AIHub) |
|---|---|---|---|
| 한국어-일본어 번역 말뭉치 | 1350000 | 1350000 | 127 |
| 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 | 2700000 | 1343763 | 546 |
| 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 | 1487088 | 887425 | 71263 |
| 발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 | 82002 | 26990 | 71411 |
| 한국어-다국어(영어 제외) 번역 말뭉치(기술과학) | 270459 | 124142 | 71493 |
| 한국어-다국어 번역 말뭉치(기초과학) | 270317 | 81449 | 71496 |
| 한국어-다국어 번역 말뭉치(인문학) | 271721 | 80431 | 71498 |
| 다국어 통번역 낭독체 데이터 | 1468948 | 120168 | 71524 |
| 방송콘텐츠 한국어-아시아어 번역 말뭉치 | 820387 | 112978 | 71591 |
| AI 허브 데이터 활용을 위한 기계 번역말뭉치 | 2653948 | 212119 | 71593 |
注: 以上数据集均包含韩语和日语数据,适用于韩日翻译任务。



