NiuTrans/ComMT
收藏Hugging Face2025-03-11 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/NiuTrans/ComMT
下载链接
链接失效反馈官方服务:
资源简介:
ComMT是一个为开发和评估通用翻译模型设计的综合数据集。它包括多样化的翻译相关任务,为训练和测试基于大型语言模型的机器翻译系统提供了经过精心策划的数据资源。该数据集包含四种语言(德语、捷克语、俄语和中文)的六个翻译相关任务,数据来源于60多个公开数据源,经过手动注释和严格的质量控制。
ComMT is a comprehensive dataset suite designed for the development and evaluation of universal translation models. It includes diverse translation-related tasks, providing a well-curated data resource for training and testing LLM-based machine translation systems. The dataset is meticulously curated from over 60+ publicly available data sources, with most data manually annotated and rigorously quality-controlled. It currently contains a training set of ~239k instances across six translation-related tasks in four languages: German, Czech, Russian, and Chinese.
提供机构:
NiuTrans
搜集汇总
数据集介绍

背景与挑战
背景概述
ComMT是一个多语言翻译数据集,支持多种翻译任务,包含约239k训练实例,覆盖四种语言,并计划扩展更多语言。数据集经过严格质量控制,适用于训练和测试基于LLM的机器翻译系统。
以上内容由遇见数据集搜集并总结生成



