ShaomuTan/EC40
收藏Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ShaomuTan/EC40
下载链接
链接失效反馈官方服务:
资源简介:
EC40是一个以英语为中心的多语言机器翻译数据集,包含超过6000万句句子,涵盖5个语系的40种语言。数据集经过Moses等工具的清洗和预处理,确保了数据的质量和平衡性。数据集特别强调了资源平衡,每种资源组包含5个语系,每个语系包含8种代表性语言。此外,数据集涵盖了从高资源(5M)到极低资源(50K)的广泛资源可用性。数据集包括80个以英语为中心的训练方向和1,640个评估方向(包括所有监督和零样本方向),并使用Ntrex-128和Flores-200作为验证和测试集。
提供机构:
ShaomuTan
原始信息汇总
EC40 MNMT 数据集
概述
EC40 是一个以英语为中心的多语言机器翻译数据集,包含超过 6000 万条句子,涵盖 40 种语言,分布在 5 个语系中。
特点
- 数据集在资源和语言之间进行了精心平衡,每个资源组包含 5 个语系,每个语系包含 8 种代表性语言。
- EC40 覆盖了广泛的资源可用性,从高资源(500 万条)到中资源(100 万条)、低资源(10 万条)和极低资源(5 万条)。
- 总共包含 80 个以英语为中心的训练方向和 1640 个方向(包括所有监督和零样本方向)用于评估。
- 使用 Ntrex-128 和 Flores-200 作为验证和测试集。
语言和语系
| 语系 | 语言 |
|---|---|
| 日耳曼语系 | 德语, 荷兰语, 瑞典语, 丹麦语, 南非荷兰语, 卢森堡语, 挪威语, 冰岛语 |
| 罗曼语系 | 法语, 西班牙语, 意大利语, 葡萄牙语, 罗马尼亚语, 奥克西坦语, 阿斯图里亚斯语, 加泰罗尼亚语 |
| 斯拉夫语系 | 俄语, 捷克语, 波兰语, 保加利亚语, 乌克兰语, 塞尔维亚语, 白俄罗斯语, 波斯尼亚语 |
| 印欧语系 | 印地语, 孟加拉语, 卡纳达语, 马拉地语, 信德语, 古吉拉特语, 尼泊尔语, 乌尔都语 |
数据集统计
| 资源 | 语言 | 大小 |
|---|---|---|
| 高资源 | de, nl, fr, es, ru, cs, hi, bn, ar, he | 5M |
| 中资源 | sv, da, it, pt, pl, bg, kn, mr, mt, ha | 1M |
| 低资源 | af, lb, ro, oc, uk, sr, sd, gu, ti, am | 100k |
| 极低资源 | no, is, ast, ca, be, bs, ne, ur, kab, so | 50k |



