five

WMT 2015

收藏
arXiv2025-09-30 收录
下载链接:
http://www.statmt.org/wmt15/index.html
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集为WMT15数据集,包含了德语到英语的翻译对,总计达到了450万对。在数据划分上,使用了newstest2013(3000对)作为开发集,newstest2015(2169对)作为测试集。同时,应用了32K合并操作的分词编码(BPE),并共享了词汇表。该数据集的任务是进行同声传译机器翻译。

This is the WMT15 dataset, which contains 4.5 million German-to-English translation pairs. For data partitioning, newstest2013 (3,000 pairs) is employed as the development set, while newstest2015 (2,169 pairs) serves as the test set. Additionally, 32K merge-based Byte Pair Encoding (BPE) tokenization is applied, and a shared vocabulary is adopted. The task supported by this dataset is simultaneous machine translation.
提供机构:
WMT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作