five

traintogpb/aihub-kozh-translation-integrated-large-5.9m

收藏
Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-kozh-translation-integrated-large-5.9m
下载链接
链接失效反馈
官方服务:
资源简介:
AI Hub提供的韩语-中文翻译数据集集成,包含10个相关数据集的合并。数据集总数为5,934,596个,其中10,000个验证集和2,000个测试集,适用于不同规模的数据集(large-5.9m, base-1m, small-100k)。

AI Hub提供的韩语-中文翻译数据集集成,包含10个相关数据集的合并。数据集总数为5,934,596个,其中10,000个验证集和2,000个测试集,适用于不同规模的数据集(large-5.9m, base-1m, small-100k)。
提供机构:
traintogpb
原始信息汇总

AI Hub Ko-Zh Translation Dataset (Integrated)

数据集概述

  • 语言: 韩语 (ko), 中文 (zh)
  • 许可: MIT
  • 任务类别: 翻译

数据集组成

  • 合并数据: 由10个相关数据集合并而成,总数据量为5,934,596个。
  • 训练集划分:
    • large-5.9m (train): 使用合并数据的100%,共5,922,596个。
    • base-1m (train): 使用合并数据中的1M个,共1,000,000个。
    • small-100k (train): 使用合并数据中的100K个,共100,000个。
  • 验证集与测试集: 分别有10,000个验证集和2,000个测试集,适用于所有数据规模。

子集详情

名称 总大小 中文大小 数据集键 (AIHub)
한국어-중국어 번역 말뭉치(기술과학) 1170000 1170000 128
한국어-중국어 번역 말뭉치(사회과학) 1170000 1170000 129
일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 2700000 1349470 546
전문분야 영-한, 중-한 번역 말뭉치(식품) 1350000 1326837 71262
방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터 1487088 367921 71263
발화유형(문어, 구어, 채팅) 별 기계번역 병렬 말뭉치 82002 26989 71411
한국어-다국어 번역 말뭉치(기술과학) 270459 146317 71493
한국어-다국어 번역 말뭉치(기초과학) 270317 84419 71496
한국어-다국어 번역 말뭉치(인문학) 271721 80375 71498
방송콘텐츠 한국어-아시아어 번역 말뭉치 820387 112978 71591
AI 허브 데이터 활용을 위한 기계 번역말뭉치 2653948 212268 71593
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作