five

traintogpb/aihub-koja-translation-integrated-base-1m

收藏
Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koja-translation-integrated-base-1m
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - translation language: - ko - ja --- ### AI Hub Ko-Ja Translation Dataset (Integrated) AI Hub의 한-일 번역 관련 데이터셋 10개를 병합한 자료입니다. 병합 시 총 데이터 개수는 4,339,465개이며, 이중 10,000개의 validation set와 2,000개의 test set가 분리되어 모든 데이터 사이즈(large-4.3m, base-1m, small-100k)에서 동일하게 사용됩니다. - large-4.3m (train): 병합 데이터 100% 사용; 총 4,327,465개 - base-1m (train): 병합 데이터 중 1M개 사용; 총 1,000,000개 - small-100k (train): 병합 데이터 중 100K개 사용; 총 100,000개 ### Subsets | Name | Total Size | Japanese Size (Utilized Only) | URL | Datasetkey (AIHub) | |---|---|---|---|---| | 한국어-일본어 번역 말뭉치 | 1350000 | 1350000 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=127) | 127 | | 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 | 2700000 | 1343763 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=546) | 546 | | 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 | 1487088 | 887425 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71263) | 71263 | | 발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 | 82002 | 26990 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71411) | 71411 | | 한국어-다국어(영어 제외) 번역 말뭉치(기술과학) | 270459 | 124142 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71493) | 71493 | | 한국어-다국어 번역 말뭉치(기초과학) | 270317 | 81449 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71496) | 71496 | | 한국어-다국어 번역 말뭉치(인문학) | 271721 | 80431 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71498) | 71498 | | 다국어 통번역 낭독체 데이터 | 1468948 | 120168 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71524) | 71524 | | 방송콘텐츠 한국어-아시아어 번역 말뭉치 | 820387 | 112978 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71591) | 71591 | | AI 허브 데이터 활용을 위한 기계 번역말뭉치 | 2653948 | 212119 | [URL](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71593) | 71593 |
提供机构:
traintogpb
原始信息汇总

AI Hub Ko-Ja Translation Dataset (Integrated)

数据集概述:

  • 合并来源: 来自AI Hub的10个韩日翻译相关数据集合并而成。
  • 数据总量: 合并后总数据量为4,339,465个。
  • 验证集与测试集: 包含10,000个验证集和2,000个测试集,适用于所有数据规模。

数据集规模:

  • large-4.3m (train): 使用合并数据的100%,总计4,327,465个。
  • base-1m (train): 从合并数据中选取1M个,总计1,000,000个。
  • small-100k (train): 从合并数据中选取100K个,总计100,000个。

子集详情

名称 总大小 日语大小(仅利用) URL Datasetkey (AIHub)
韩语-日语翻译语料库 1350000 1350000 URL 127
日常生活及口语韩-中, 韩-日翻译平行语料库数据 2700000 1343763 URL 546
广播内容韩-中, 韩-日翻译平行语料库数据 1487088 887425 URL 71263
发言类型(书面语, 口语, 聊天)机器翻译平行语料库 82002 26990 URL 71411
韩语-多国语言(英语除外)翻译语料库(科学技术) 270459 124142 URL 71493
韩语-多国语言翻译语料库(基础科学) 270317 81449 URL 71496
韩语-多国语言翻译语料库(人文学) 271721 80431 URL 71498
多国语言同声传译朗读体数据 1468948 120168 URL 71524
广播内容韩语-亚洲语翻译语料库 820387 112978 URL 71591
AI Hub数据利用机器翻译语料库 2653948 212119 URL 71593
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作