five

WMT中英机器翻译训练集

收藏
魔搭社区2026-06-07 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/WMT-Chinese-to-English-Machine-Translation-Training-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
WMT(全球机器翻译大会) 中英机器翻译训练集是一个业内公开使用的双语数据集,由ParaCrawl、News-Commentary、Wiki-Titles、UN Parallel Corpus、WikiMatrix、CCMT等数据集组成。

The Chinese-English machine translation training dataset from WMT (Global Conference on Machine Translation) is a publicly available bilingual dataset widely used in the machine translation field, consisting of datasets including ParaCrawl, News-Commentary, Wiki-Titles, UN Parallel Corpus, WikiMatrix, CCMT, and others.
提供机构:
maas
创建时间:
2022-10-14
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个中英机器翻译训练集,基于WMT 2021 News Translation Task构建,由ParaCrawl、News-Commentary等多个公开数据集组成,总计2500万双语句对,用于训练中英双向机器翻译模型。数据格式为文本格式,source和reference逐行对齐,支持高效的模型训练。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务