NiuTrans/ComMT

Name: NiuTrans/ComMT
Creator: NiuTrans
Published: 2025-03-11 06:26:06
License: 暂无描述

Hugging Face2025-03-11 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/NiuTrans/ComMT

下载链接

链接失效反馈

官方服务：

资源简介：

ComMT是一个为开发和评估通用翻译模型设计的综合数据集。它包括多样化的翻译相关任务，为训练和测试基于大型语言模型的机器翻译系统提供了经过精心策划的数据资源。该数据集包含四种语言（德语、捷克语、俄语和中文）的六个翻译相关任务，数据来源于60多个公开数据源，经过手动注释和严格的质量控制。

ComMT is a comprehensive dataset suite designed for the development and evaluation of universal translation models. It includes diverse translation-related tasks, providing a well-curated data resource for training and testing LLM-based machine translation systems. The dataset is meticulously curated from over 60+ publicly available data sources, with most data manually annotated and rigorously quality-controlled. It currently contains a training set of ~239k instances across six translation-related tasks in four languages: German, Czech, Russian, and Chinese.

提供机构：

NiuTrans

搜集汇总

数据集介绍

背景与挑战

背景概述

ComMT是一个多语言翻译数据集，支持多种翻译任务，包含约239k训练实例，覆盖四种语言，并计划扩展更多语言。数据集经过严格质量控制，适用于训练和测试基于LLM的机器翻译系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集