five

ShaomuTan/EC40

收藏
Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ShaomuTan/EC40
下载链接
链接失效反馈
官方服务:
资源简介:
EC40是一个以英语为中心的多语言机器翻译数据集,包含超过6000万句句子,涵盖5个语系的40种语言。数据集经过Moses等工具的清洗和预处理,确保了数据的质量和平衡性。数据集特别强调了资源平衡,每种资源组包含5个语系,每个语系包含8种代表性语言。此外,数据集涵盖了从高资源(5M)到极低资源(50K)的广泛资源可用性。数据集包括80个以英语为中心的训练方向和1,640个评估方向(包括所有监督和零样本方向),并使用Ntrex-128和Flores-200作为验证和测试集。
提供机构:
ShaomuTan
原始信息汇总

EC40 MNMT 数据集

概述

EC40 是一个以英语为中心的多语言机器翻译数据集,包含超过 6000 万条句子,涵盖 40 种语言,分布在 5 个语系中。

特点

  1. 数据集在资源和语言之间进行了精心平衡,每个资源组包含 5 个语系,每个语系包含 8 种代表性语言。
  2. EC40 覆盖了广泛的资源可用性,从高资源(500 万条)到中资源(100 万条)、低资源(10 万条)和极低资源(5 万条)。
  3. 总共包含 80 个以英语为中心的训练方向和 1640 个方向(包括所有监督和零样本方向)用于评估。
  4. 使用 Ntrex-128 和 Flores-200 作为验证和测试集。

语言和语系

语系 语言
日耳曼语系 德语, 荷兰语, 瑞典语, 丹麦语, 南非荷兰语, 卢森堡语, 挪威语, 冰岛语
罗曼语系 法语, 西班牙语, 意大利语, 葡萄牙语, 罗马尼亚语, 奥克西坦语, 阿斯图里亚斯语, 加泰罗尼亚语
斯拉夫语系 俄语, 捷克语, 波兰语, 保加利亚语, 乌克兰语, 塞尔维亚语, 白俄罗斯语, 波斯尼亚语
印欧语系 印地语, 孟加拉语, 卡纳达语, 马拉地语, 信德语, 古吉拉特语, 尼泊尔语, 乌尔都语

数据集统计

资源 语言 大小
高资源 de, nl, fr, es, ru, cs, hi, bn, ar, he 5M
中资源 sv, da, it, pt, pl, bg, kn, mr, mt, ha 1M
低资源 af, lb, ro, oc, uk, sr, sd, gu, ti, am 100k
极低资源 no, is, ast, ca, be, bs, ne, ur, kab, so 50k
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作