COMTAIL

Name: COMTAIL
Creator: 国际信息科技学院语言技术研究中心
Published: 2025-09-22 20:11:42
License: 暂无描述

arXiv2025-09-22 更新2025-09-24 收录

下载链接：

https://huggingface.co/datasets/wmt-da-lhumanevaluation

下载链接

链接失效反馈

官方服务：

资源简介：

COMTAIL数据集是一个大规模的人工评价数据集，包含13种印度语言的21个翻译方向。该数据集包含超过100万个单独评价的项目，经过筛选后，最终发布的数据集包含221,941个项目。这些评价数据是从多样化的翻译输出中收集的，用于训练神经翻译评估指标。数据集的创建是为了解决印度语言翻译方向评估的挑战，并提高翻译质量评估的准确性。

提供机构：

国际信息科技学院语言技术研究中心

创建时间：

2025-09-22

搜集汇总

数据集介绍

构建方式

COMTAIL数据集的构建采用了严谨的多阶段流程，基于直接评估与标量质量度量相结合的方法论。研究团队通过双语阅读能力测试筛选了275名专业译员，针对13种印度语言在21个翻译方向上开展人工评估。数据源融合了公开平行语料库与未发布的印地语翻译数据集，覆盖通用、政务和医疗三大领域。每个源语句与10类翻译假设配对，包括主流机器翻译引擎输出、人工参考译文及加噪变体，最终通过质量控制测试过滤后形成包含221,941条评分的标准化数据集。

特点

该数据集的核心特征体现在其大规模多语言覆盖与质量梯度多样性。涵盖从英语/印地语到13种印度语言的翻译对，特别包含克什米尔语、多格里语等低资源语言，填补了印度语言评估数据的空白。翻译假设质量呈连续分布，既包含GPT-3.5等先进模型输出，也通过随机插入、替换等加噪手段构建质量负样本。评估数据采用z分数标准化与最小-最大缩放处理，确保不同评分者间的一致性。领域分布的均衡性使数据集具备跨域评估潜力，为研究语言家族关联性对评估指标的影响提供了理想实验基础。

使用方法

数据集支持参考式与无参考式机器翻译评估模型的训练与验证。研究人员可基于COMET架构训练神经评估指标，利用源文-译文-参考文三元组或源文-译文二元组进行回归训练。标准化后的评分适用于最小化均方误差损失函数，同时支持与大规棋语言模型的结合使用。数据划分遵循按语言对分层抽样原则，训练/开发/测试集比例为0.9:0.05:0.05，确保各语言方向在分割中的比例代表性。针对低资源场景，数据集支持零样本迁移学习实验，并可结合WMT等国际评测数据开展多任务学习。

背景与挑战

背景概述

COMTAIL数据集于2025年由印度海得拉巴国际信息技术学院语言技术研究中心的Arafat Ahsan等学者创建，旨在解决印度语言机器翻译质量自动评估的瓶颈问题。该数据集覆盖13种印度语言、21个翻译方向，包含超过22万条人工评分的翻译质量数据，采用直接评估与标量质量度量相结合的方法。作为当前印度语言领域规模最大的翻译评估数据集，COMTAIL显著提升了神经评估指标在低资源语言场景下的性能，为南亚语言技术研究提供了重要基础设施。

当前挑战

在解决翻译质量评估领域问题时，COMTAIL面临印度语言形态复杂性高、语法结构差异大导致的评估一致性挑战。数据集构建过程中需克服多语言标注者招募难度大、质量管控体系设计复杂等困难，特别是针对克什米尔语、多格拉语等极低资源语言，需设计特殊的双语评估者筛选机制和阅读理解测试流程。此外，数据采集还需平衡不同机器翻译引擎输出质量分布，确保评估样本覆盖从完美翻译到严重错误的完整质量光谱。

常用场景

经典使用场景

在机器翻译评估领域，COMTAIL数据集为印度语言翻译质量评估提供了关键支撑。该数据集通过整合13种印度语言在21个翻译方向上的大规模人工评分数据，为基于神经网络的翻译评估指标训练奠定了坚实基础。其经典应用场景体现在为多语言翻译系统提供标准化评估框架，特别是在处理印地语、泰米尔语等低资源语言时，能够有效弥补传统评估方法在语言覆盖范围上的不足。数据集构建过程中采用的直接评估与标量质量度量相结合的方法，确保了评估结果的可靠性与一致性。

衍生相关工作

该数据集的发布催生了一系列重要的衍生研究工作。基于COMTAIL训练的神经网络评估指标在WMT等国际评测中展现出优越性能，推动了如IndicCOMET等专门针对印度语言的评估模型发展。研究人员利用数据集的多语言特性，探索了语言家族间知识迁移的有效性，为达罗毗荼语系与印欧语系语言的跨语言评估提供了新见解。数据集构建方法论还启发了针对其他低资源语言群体的类似数据创建工作，特别是在质量控制机制和评估尺度标准化方面的创新实践，为全球低资源语言技术发展提供了可复制的模板。

数据集最近研究