WMT 2016
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/WMT_2016_News
下载链接
链接失效反馈官方服务:
资源简介:
新闻翻译是一项经常性的 WMT 任务。测试集是一组平行语料库,由大约 1500 个英语句子翻译成 5 种语言(捷克语、德语、芬兰语、罗马尼亚语、俄语、土耳其语)和 5 种语言中的每一种翻译成英语的另外 1500 个句子组成。对于罗马尼亚语,三分之一的测试集作为开发集发布。土耳其语附加 500 句开发集已发布。这些句子选自数十家新闻网站,由专业翻译人员翻译。训练数据包括用于训练翻译模型的并行语料库、用于训练语言模型的单语语料库和用于调优的开发集。一些训练语料库与 WMT 2015 相同(Europarl、联合国、法语-英语 10⁹ 语料库、Common Crawl、Yandex 提供的俄语-英语平行数据、CMU 提供的 Wikipedia Headlines),有些是更新的(CzEng v1.6pre、新闻评论v11,单语新闻数据)。此外,还添加了以下新语料库:罗马尼亚语 Europarl、来自 OPUS 的用于罗马尼亚语-英语和土耳其语-英语的 SETIMES2、来自 CommonCrawl 的单语数据集。
提供机构:
OpenDataLab
创建时间:
2022-08-16



