five

traintogpb/aihub-koja-translation-integrated-large-4.3m

收藏
Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koja-translation-integrated-large-4.3m
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - translation language: - ko - ja --- ### AI Hub Ko-Ja Translation Dataset (Integrated) AI Hub의 한-일 번역 관련 데이터셋 10개를 병합한 자료입니다. 병합 시 총 데이터 개수는 4,339,465개이며, 이중 10,000개의 validation set와 2,000개의 test set가 분리되어 모든 데이터 사이즈(large-4.3m, base-1m, small-100k)에서 동일하게 사용됩니다. - large-4.3m (train): 병합 데이터 100% 사용; 총 4,327,465개 - base-1m (train): 병합 데이터 중 1M개 사용; 총 1,000,000개 - small-100k (train): 병합 데이터 중 100K개 사용; 총 100,000개 ### Subsets | Name | Total Size | Japanese Size (Utilized Only) | URL | Datasetkey (AIHub) | |---|---|---|---|---| | 한국어-일본어 번역 말뭉치 | 1350000 | 1350000 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=127) | 127 | | 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 | 2700000 | 1343763 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=546) | 546 | | 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 | 1487088 | 887425 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71263) | 71263 | | 발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 | 82002 | 26990 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71411) | 71411 | | 한국어-다국어(영어 제외) 번역 말뭉치(기술과학) | 270459 | 124142 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71493) | 71493 | | 한국어-다국어 번역 말뭉치(기초과학) | 270317 | 81449 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71496) | 71496 | | 한국어-다국어 번역 말뭉치(인문학) | 271721 | 80431 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71498) | 71498 | | 다국어 통번역 낭독체 데이터 | 1468948 | 120168 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71524) | 71524 | | 방송콘텐츠 한국어-아시아어 번역 말뭉치 | 820387 | 112978 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71591) | 71591 | | AI 허브 데이터 활용을 위한 기계 번역말뭉치 | 2653948 | 212119 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71593) | 71593 |
提供机构:
traintogpb
原始信息汇总

AI Hub Ko-Ja Translation Dataset (Integrated)

概述: AI Hub整合了10个与韩日翻译相关的数据集,总数据量为4,339,465条。其中,10,000条作为验证集,2,000条作为测试集,适用于所有数据规模(large-4.3m, base-1m, small-100k)。

数据规模详情:

  • large-4.3m (train): 使用全部合并数据,总计4,327,465条。
  • base-1m (train): 从合并数据中选取1M条,总计1,000,000条。
  • small-100k (train): 从合并数据中选取100K条,总计100,000条。

子集详情

Name Total Size Japanese Size Datasetkey (AIHub)
한국어-일본어 번역 말뭉치 1350000 1350000 127
일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 2700000 1343763 546
방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 1487088 887425 71263
발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 82002 26990 71411
한국어-다국어(영어 제외) 번역 말뭉치(기술과학) 270459 124142 71493
한국어-다국어 번역 말뭉치(기초과학) 270317 81449 71496
한국어-다국어 번역 말뭉치(인문학) 271721 80431 71498
다국어 통번역 낭독체 데이터 1468948 120168 71524
방송콘텐츠 한국어-아시아어 번역 말뭉치 820387 112978 71591
AI 허브 데이터 활용을 위한 기계 번역말뭉치 2653948 212119 71593

注: 以上数据集均包含韩语和日语数据,适用于韩日翻译任务。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作