five

traintogpb/aihub-koja-translation-integrated-small-100k

收藏
Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-koja-translation-integrated-small-100k
下载链接
链接失效反馈
官方服务:
资源简介:
AI Hub Ko-Ja翻译数据集(集成版)是AI Hub的10个韩日翻译相关数据集的合并版本。数据集总共有4,339,465条数据,其中包含10,000条验证集和2,000条测试集。数据集分为三个规模:large-4.3m(使用全部合并数据,共4,327,465条)、base-1m(使用1,000,000条数据)和small-100k(使用100,000条数据)。此外,数据集还包含10个子集,每个子集的总大小、日语数据大小、URL和Datasetkey均在README中列出。

AI Hub Ko-Ja翻译数据集(集成版)是AI Hub的10个韩日翻译相关数据集的合并版本。数据集总共有4,339,465条数据,其中包含10,000条验证集和2,000条测试集。数据集分为三个规模:large-4.3m(使用全部合并数据,共4,327,465条)、base-1m(使用1,000,000条数据)和small-100k(使用100,000条数据)。此外,数据集还包含10个子集,每个子集的总大小、日语数据大小、URL和Datasetkey均在README中列出。
提供机构:
traintogpb
原始信息汇总

AI Hub Ko-Ja Translation Dataset (Integrated)

数据集概述

  • 语言: 韩语 (ko), 日语 (ja)
  • 许可: MIT
  • 任务类别: 翻译

数据集组成

  • 合并数据: 包含10个相关数据集的合并,总数据量为4,339,465条。
  • 训练集划分:
    • large-4.3m: 使用全部合并数据,共4,327,465条。
    • base-1m: 使用合并数据中的100万条,共1,000,000条。
    • small-100k: 使用合并数据中的10万条,共100,000条。
  • 验证集与测试集: 分别包含10,000条和2,000条,适用于所有数据集大小。

子集详情

名称 总大小 日语大小 数据集键 (AIHub)
한국어-일본어 번역 말뭉치 1350000 1350000 127
일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 2700000 1343763 546
방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 1487088 887425 71263
발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 82002 26990 71411
한국어-다국어(영어 제외) 번역 말뭉치(기술과학) 270459 124142 71493
한국어-다국어 번역 말뭉치(기초과학) 270317 81449 71496
한국어-다국어 번역 말뭉치(인문학) 271721 80431 71498
다국어 통번역 낭독체 데이터 1468948 120168 71524
방송콘텐츠 한국어-아시아어 번역 말뭉치 820387 112978 71591
AI 허브 데이터 활용을 위한 기계 번역말뭉치 2653948 212119 71593
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作