traintogpb/aihub-koja-translation-integrated-base-1m
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koja-translation-integrated-base-1m
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- translation
language:
- ko
- ja
---
### AI Hub Ko-Ja Translation Dataset (Integrated)
AI Hub의 한-일 번역 관련 데이터셋 10개를 병합한 자료입니다. 병합 시 총 데이터 개수는 4,339,465개이며, 이중 10,000개의 validation set와 2,000개의 test set가 분리되어 모든 데이터 사이즈(large-4.3m, base-1m, small-100k)에서 동일하게 사용됩니다.
- large-4.3m (train): 병합 데이터 100% 사용; 총 4,327,465개
- base-1m (train): 병합 데이터 중 1M개 사용; 총 1,000,000개
- small-100k (train): 병합 데이터 중 100K개 사용; 총 100,000개
### Subsets
| Name | Total Size | Japanese Size (Utilized Only) | URL | Datasetkey (AIHub) |
|---|---|---|---|---|
| 한국어-일본어 번역 말뭉치 | 1350000 | 1350000 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=127) | 127 |
| 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 | 2700000 | 1343763 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=546) | 546 |
| 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 | 1487088 | 887425 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71263) | 71263 |
| 발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 | 82002 | 26990 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71411) | 71411 |
| 한국어-다국어(영어 제외) 번역 말뭉치(기술과학) | 270459 | 124142 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71493) | 71493 |
| 한국어-다국어 번역 말뭉치(기초과학) | 270317 | 81449 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71496) | 71496 |
| 한국어-다국어 번역 말뭉치(인문학) | 271721 | 80431 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71498) | 71498 |
| 다국어 통번역 낭독체 데이터 | 1468948 | 120168 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71524) | 71524 |
| 방송콘텐츠 한국어-아시아어 번역 말뭉치 | 820387 | 112978 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71591) | 71591 |
| AI 허브 데이터 활용을 위한 기계 번역말뭉치 | 2653948 | 212119 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71593) | 71593 |
提供机构:
traintogpb
原始信息汇总
AI Hub Ko-Ja Translation Dataset (Integrated)
数据集概述:
- 合并来源: 来自AI Hub的10个韩日翻译相关数据集合并而成。
- 数据总量: 合并后总数据量为4,339,465个。
- 验证集与测试集: 包含10,000个验证集和2,000个测试集,适用于所有数据规模。
数据集规模:
- large-4.3m (train): 使用合并数据的100%,总计4,327,465个。
- base-1m (train): 从合并数据中选取1M个,总计1,000,000个。
- small-100k (train): 从合并数据中选取100K个,总计100,000个。
子集详情
| 名称 | 总大小 | 日语大小(仅利用) | URL | Datasetkey (AIHub) |
|---|---|---|---|---|
| 韩语-日语翻译语料库 | 1350000 | 1350000 | URL | 127 |
| 日常生活及口语韩-中, 韩-日翻译平行语料库数据 | 2700000 | 1343763 | URL | 546 |
| 广播内容韩-中, 韩-日翻译平行语料库数据 | 1487088 | 887425 | URL | 71263 |
| 发言类型(书面语, 口语, 聊天)机器翻译平行语料库 | 82002 | 26990 | URL | 71411 |
| 韩语-多国语言(英语除外)翻译语料库(科学技术) | 270459 | 124142 | URL | 71493 |
| 韩语-多国语言翻译语料库(基础科学) | 270317 | 81449 | URL | 71496 |
| 韩语-多国语言翻译语料库(人文学) | 271721 | 80431 | URL | 71498 |
| 多国语言同声传译朗读体数据 | 1468948 | 120168 | URL | 71524 |
| 广播内容韩语-亚洲语翻译语料库 | 820387 | 112978 | URL | 71591 |
| AI Hub数据利用机器翻译语料库 | 2653948 | 212119 | URL | 71593 |



