qanastek/ECDC
收藏Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qanastek/ECDC
下载链接
链接失效反馈官方服务:
资源简介:
ECDC数据集是由欧盟机构欧洲疾病预防控制中心(ECDC)于2012年10月发布的翻译记忆库,包含25种语言的句子及其专业翻译。该数据集主要用于机器翻译任务,支持22种欧盟语言,包括英语、瑞典语、波兰语、匈牙利语、立陶宛语、拉脱维亚语、德语、芬兰语、斯洛伐克语、斯洛文尼亚语、法语、捷克语、丹麦语、意大利语、马耳他语、荷兰语、葡萄牙语、罗马尼亚语、西班牙语、爱沙尼亚语、保加利亚语、希腊语、爱尔兰语、冰岛语和挪威语。数据集的规模在10万到100万之间,数据来源为扩展数据集,且数据集中不包含个人或敏感信息。
The ECDC Dataset is a translation memory released by the European Centre for Disease Prevention and Control (ECDC), an EU agency, in October 2012. It contains sentences across 25 languages and their professional translations. This dataset is primarily designed for machine translation tasks, supporting 22 EU languages including English, Swedish, Polish, Hungarian, Lithuanian, Latvian, German, Finnish, Slovak, Slovenian, French, Czech, Danish, Italian, Maltese, Dutch, Portuguese, Romanian, Spanish, Estonian, Bulgarian, Greek, Irish, Icelandic, and Norwegian. The size of the dataset ranges from 100,000 to 1,000,000 entries, with its data source being an extended dataset. No personal or sensitive information is included in the dataset.
提供机构:
qanastek
原始信息汇总
数据集概述
名称 : ECDC
描述 : ECDC是一个包含25种语言的翻译记忆库,由欧洲疾病预防控制中心于2012年10月发布。该数据集包含专业翻译的句子和其翻译,适用于机器翻译和翻译任务。
语言 : 英语(en), 瑞典语(sv), 波兰语(pl), 匈牙利语(hu), 立陶宛语(lt), 拉脱维亚语(lv), 德语(de), 芬兰语(fi), 斯洛伐克语(sk), 斯洛文尼亚语(sl), 法语(fr), 捷克语(cs), 丹麦语(da), 意大利语(it), 马耳他语(mt), 荷兰语(nl), 葡萄牙语(pt), 罗马尼亚语(ro), 西班牙语(es), 爱沙尼亚语(et), 保加利亚语(bg), 希腊语(el), 爱尔兰语(ga), 冰岛语(is), 挪威语(no)。
许可证 : 其他
大小 : 100K<n<1M
任务 : 翻译, 机器翻译
数据集结构
数据实例 :
- key : 文档标识符(字符串)
- lang : 源语言和目标语言对(字符串)
- source_text : 源文本(字符串)
- target_text : 目标文本(字符串)
数据分割 :
- 按语言对和文档标识符分割,具体数量见数据分割表。
数据集创建
来源数据 :
- 数据由JRC上传,无个人或敏感信息。
使用注意事项 :
- 目标翻译的质量可能因任务性质而异。
附加信息
许可证信息 :
- 使用ECDC-Translation Memory需遵守ECDC-TM使用条件。
引用信息 :
- 使用此数据集时,请引用Steinberger等人的论文。
搜集汇总
数据集介绍

构建方式
在跨语言信息处理领域,构建高质量的平行语料库是推动机器翻译技术发展的基石。ECDC数据集源自欧洲疾病预防控制中心发布的翻译记忆库,其构建过程依托于欧盟官方机构的专业翻译实践。该数据集通过收集并整理官方文档的句子及其在二十余种语言中的专业翻译,形成了规模可观的平行语料。数据经由欧洲委员会联合研究中心的规范化处理与发布,确保了来源的权威性与内容的准确性,为多语言自然语言处理研究提供了坚实的资源支撑。
特点
作为欧盟高度多语言平行语料库的重要组成部分,ECDC数据集展现出鲜明的多语言覆盖特性。该数据集囊括了英语与瑞典语、波兰语、匈牙利语等二十四种欧洲语言之间的平行句对,语言多样性极为丰富。其语料均来源于欧盟机构的官方文档,翻译质量由专业语言工作者保障,具有较高的准确性与一致性。数据规模介于十万到百万句对之间,为训练大规模神经机器翻译模型提供了充足且高质量的多语言训练样本。
使用方法
在机器翻译模型的研究与开发中,ECDC数据集可作为核心训练与评估资源。研究者可通过Hugging Face的`datasets`库便捷加载特定语言对的子集,例如使用`load_dataset("qanastek/ECDC", "en-it", split='train')`指令获取英意平行语料。数据以清晰的字段结构呈现,包含文档标识、语言对、源文本与目标文本,便于直接用于监督式翻译模型的训练。鉴于其官方文本属性,该数据集尤其适合用于提升领域适应性翻译模型的性能,或作为多语言翻译系统在欧盟语言上的基准测试集。
背景与挑战
背景概述
在机器翻译领域,多语言平行语料库的构建对于推动跨语言信息处理技术至关重要。ECDC数据集源于2012年10月,由欧盟疾病预防控制中心发布,其核心研究问题在于如何为欧洲联盟的多种官方语言提供高质量、专业翻译的平行文本,以支持多语言机器翻译模型的训练与评估。该数据集由欧盟联合研究中心及相关学者如Ralf Steinberger等人主导构建,涵盖了英语与瑞典语、波兰语、匈牙利语等22种语言对的翻译记忆,显著丰富了低资源语言的翻译资源,对促进欧洲多语言信息处理及机器翻译研究产生了深远影响。
当前挑战
ECDC数据集所解决的领域问题是多语言机器翻译,其挑战在于处理高度多样化的语言对之间的翻译对齐,尤其是对于低资源语言如爱尔兰语或马耳他语,缺乏充足训练数据导致模型性能受限。在构建过程中,挑战主要源于数据收集与标准化:需从欧盟机构的专业文档中提取并整合多语言翻译记忆,确保翻译质量一致且避免个人敏感信息;同时,处理不同语言间的语法结构差异和文化语境转换,增加了数据对齐与清洗的复杂性,这些因素共同制约了数据集的规模扩展与应用泛化能力。
常用场景
经典使用场景
在机器翻译研究领域,ECDC数据集以其覆盖欧盟22种官方语言的专业翻译记忆库而著称,为构建多语言神经机器翻译模型提供了高质量的平行语料。该数据集广泛应用于训练和评估翻译系统,特别是在处理低资源语言对时,其专业翻译的准确性和领域一致性为模型优化提供了可靠基准。研究者常利用其跨语言对齐特性,探索零样本或少样本翻译的泛化能力,推动多语言自然语言处理技术的发展。
实际应用
在实际应用中,ECDC数据集为欧盟机构的跨语言信息传播提供了技术基础,支持公共卫生、政策法规等专业领域的自动翻译系统开发。该资源被集成到多语言内容管理平台中,辅助翻译人员提升工作效率,确保官方文件在不同语言版本间保持术语一致。此外,其语料也被用于构建定制化翻译引擎,服务于跨国企业的本地化需求,促进欧洲多语言社会的信息无障碍流通。
衍生相关工作
基于ECDC数据集,学术界衍生了一系列经典研究工作,例如在ACL、EMNLP等顶级会议上发表的关于多语言翻译模型预训练的论文。这些工作常将ECDC与其他欧盟平行语料库结合,构建大规模多语言训练集,推动如mBART、M2M-100等跨语言模型的演进。此外,该数据集还支撑了针对低资源语言的翻译质量评估研究,以及基于专业领域术语对齐的语义表示学习,为后续多语言自然语言处理资源的整合提供了范式参考。
以上内容由遇见数据集搜集并总结生成



