WMT 2016
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WMT_2016_News
下载链接
链接失效反馈官方服务:
资源简介:
新闻翻译是一项经常性的 WMT 任务。测试集是一组平行语料库,由大约 1500 个英语句子翻译成 5 种语言(捷克语、德语、芬兰语、罗马尼亚语、俄语、土耳其语)和 5 种语言中的每一种翻译成英语的另外 1500 个句子组成。对于罗马尼亚语,三分之一的测试集作为开发集发布。土耳其语附加 500 句开发集已发布。这些句子选自数十家新闻网站,由专业翻译人员翻译。训练数据包括用于训练翻译模型的并行语料库、用于训练语言模型的单语语料库和用于调优的开发集。一些训练语料库与 WMT 2015 相同(Europarl、联合国、法语-英语 10⁹ 语料库、Common Crawl、Yandex 提供的俄语-英语平行数据、CMU 提供的 Wikipedia Headlines),有些是更新的(CzEng v1.6pre、新闻评论v11,单语新闻数据)。此外,还添加了以下新语料库:罗马尼亚语 Europarl、来自 OPUS 的用于罗马尼亚语-英语和土耳其语-英语的 SETIMES2、来自 CommonCrawl 的单语数据集。
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
WMT 2016是一个用于机器翻译的平行语料库数据集,专注于新闻翻译任务。它包含测试集(约1500个英语句子与多种语言互译)以及训练数据,如并行语料库和单语语料库,用于模型训练和调优。
以上内容由遇见数据集搜集并总结生成



