XQ-MEval
收藏arXiv2026-04-16 更新2026-04-18 收录
下载链接:
https://github.com/zhiqu22/XQ-MEval
下载链接
链接失效反馈官方服务:
资源简介:
XQ-MEval是由奈良先端科学技术大学院大学和复旦大学联合构建的首个跨语言平行质量三元组数据集,覆盖中、日、老挝等9种语言的英译方向。该数据集基于Flores高质量语料,通过GPT-4o自动注入MQM定义的四种主要错误类型(增译、漏译、误译和未翻译),并经母语者筛选后合并生成6种质量级别的伪翻译,最终形成包含源句、伪翻译和参考译文的评估三元组。其创新性在于通过半自动化流程实现跨语言可比的质量控制,为揭示翻译指标评分偏差提供了基准工具,主要应用于多语言机器翻译系统的公平性评估与指标校准研究。
XQ-MEval is the first cross-lingual parallel quality triplet dataset jointly developed by Nara Institute of Science and Technology and Fudan University. It covers English-to-target translation directions for nine languages including Chinese, Japanese, Lao, and others. Built upon high-quality Flores parallel corpora, GPT-4o is employed to automatically inject four major error types defined by the MQM framework—addition, omission, mistranslation, and untranslated content—into the translated texts. After being filtered and curated by native speakers, the modified samples are combined to generate pseudo-translations across six quality tiers, ultimately forming evaluation triplets composed of source sentences, pseudo-translations, and reference translations. Its core innovation lies in realizing cross-lingually comparable quality control via a semi-automated workflow, which serves as a benchmark tool for uncovering scoring biases of translation evaluation metrics. This dataset is primarily applied to fairness evaluation and metric calibration research for multilingual machine translation systems.
提供机构:
日本奈良先端科学技术大学院大学; 复旦大学
创建时间:
2026-04-16
原始信息汇总
XQ-MEval 数据集概述
数据集简介
XQ-MEval 是一个用于评估翻译指标跨语言评分偏差的基准数据集。该数据集通过向高质量翻译中注入不同数量的多维质量度量(MQM)定义的错误构建而成,实现了跨语言的可控且可比较的翻译质量。
核心特性
- 构建方法:通过向高质量翻译中注入 MQM 定义的错误,构建质量平行的数据集。
- 主要用途:作为基准,用于系统评估评估指标中的跨语言评分偏差。
- 灵活性:数据集构建流程高度灵活,可以轻松适应或扩展到不同的语言和错误类型。
基准数据详情
- 高质量翻译数据源:Flores+
- 涵盖语言对:英语-中文(en-zh);英语-老挝语(en-lo);英语-日语(en-ja);英语-西班牙语(en-es);英语-法语(en-fr);英语-印尼语(en-id);英语-越南语(en-vi);英语-德语(en-de);英语-僧伽罗语(en-si)。
- 错误类型:添加;省略;误译;未翻译。
- 三元组数量分布(质量等级代表翻译中存在的错误数量):
| 质量等级 | en-zh | en-lo | en-ja | en-vi | en-id | en-fr | en-es | en-si | en-de |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 776 | 753 | 775 | 771 | 782 | 775 | 771 | 765 | 774 |
| 2 | 2,109 | 2,053 | 2,078 | 2,056 | 2,095 | 1,992 | 2,016 | 2,064 | 2,049 |
| 3 | 2,548 | 2,627 | 2,441 | 2,420 | 2,421 | 2,068 | 2,233 | 2,489 | 2,337 |
| 4 | 1,466 | 1,704 | 1,324 | 1,387 | 1,311 | 957 | 1,069 | 1,432 | 1,234 |
| 5 | 406 | 558 | 340 | 428 | 312 | 198 | 203 | 361 | 313 |
评估指标
数据集可用于计算以下评估指标的分数:
- spBLEU
- chrF++
- BLEURT-20
- COMET-22
- xCOMET-XL
- MetricX-23
- COMET-KIWI-22
- COMET-KIWI-23
- MetricX-23-QE
相关链接
- 许可证:CC BY-SA 4.0
- 论文状态:已被 ACL 2026 Findings 接收。
搜集汇总
数据集介绍

构建方式
在机器翻译评估领域,构建具有跨语言平行质量的数据集是衡量自动评估指标公平性的关键。XQ-MEval采用半自动化的创新流程,首先基于高质量的多语言翻译数据集Flores,利用GPT-4o在参考译文中自动注入MQM定义的四种主要语义错误,包括添加、省略、误译和未翻译错误。随后,通过母语者对这些错误候选进行严格筛选,确保其可靠性与跨语言一致性。最终,通过合并不同数量的错误片段,生成具有可控质量水平的伪翻译,并与源句和参考译文组合形成三元组,从而构建覆盖九个翻译方向的基准数据集。
特点
XQ-MEval的核心特点在于其首次实现了跨语言平行质量的三元组实例,为自动评估指标的基准测试提供了坚实基础。该数据集涵盖从英语到中文、日语、老挝语、越南语、印尼语、法语、西班牙语、僧伽罗语和德语等九种语言方向,兼顾高资源与低资源语言,确保了评估的广泛代表性。通过精心设计的错误注入与合并机制,数据集能够模拟具有预定质量水平的伪翻译系统,使得在不同语言间进行公平的指标比较成为可能,从而有效揭示评估指标可能存在的跨语言评分偏差。
使用方法
该数据集主要用于评估自动翻译评估指标在跨语言场景下的表现。研究人员可通过从数据集中采样三元组,构建模拟不同质量水平的伪翻译系统,并利用各类自动评估指标对这些系统进行评分。通过比较指标评分与预定义的人类评估分数,可以量化指标与人类判断之间的一致性,并深入分析跨语言评分偏差的具体表现。此外,基于数据集的分析结果,研究者可进一步提出并验证如语言特定全局归一化等校准策略,以提升多语言评估的公平性与可靠性。
背景与挑战
背景概述
在机器翻译领域,自动评估指标对于构建多语言翻译系统至关重要。然而,现有评估实践通常假设不同语言在相似错误上具有一致的评分尺度,这一假设可能因跨语言评分偏差而失效。为系统研究此问题,日本奈良先端科学技术大学院大学与复旦大学的研究团队于2026年提出了XQ-MEval数据集。该数据集旨在提供跨语言平行质量的翻译三元组,涵盖九种翻译方向,包括高资源和低资源语言,以基准化自动评估指标的公平性与可靠性。其核心研究问题聚焦于揭示并量化跨语言评分偏差,从而推动多语言翻译评估向更科学、一致的方向发展。
当前挑战
XQ-MEval数据集致力于解决多语言翻译自动评估中的跨语言评分偏差问题,其核心挑战在于确保不同语言间翻译质量的平行可比性。具体而言,构建过程中面临两大挑战:一是数据生成需在控制质量的同时保持跨语言语义一致性,团队通过向黄金翻译自动注入MQM定义错误并经母语者过滤来实现;二是基准评估需模拟真实系统性能,通过合并错误生成伪翻译并构建伪系统,以可控质量水平进行指标评测。这些挑战的克服为首次实证跨语言评分偏差提供了可靠基础。
常用场景
经典使用场景
在机器翻译领域,自动评估指标的公平性与可靠性是衡量系统性能的核心。XQ-MEval数据集通过构建跨语言平行质量的翻译三元组,为评估自动翻译指标提供了基准测试平台。其最经典的使用场景在于系统性地量化并揭示现有自动评估指标中存在的跨语言评分偏差。研究者利用该数据集模拟具有预定质量水平的伪翻译系统,通过对比自动指标评分与人工标注的MQM分数,精确分析不同语言对之间评分尺度的一致性,从而评估指标在跨语言环境下的公平性。
衍生相关工作
XQ-MEval的推出催生了一系列关注评估指标公平性与跨语言一致性的后续研究。基于其揭示的评分偏差现象,相关工作进一步探索了不同错误类型对指标敏感性的语言差异性,以及大语言模型作为评估者在多语言场景下的表现。该数据集也为改进现有指标(如COMET、MetricX等)的训练策略提供了数据支撑,促使研究社区开发更健壮的归一化方法或新的模型架构,以消除评估中的语言不平等问题,推动了多语言机器翻译评估向更精细化、更公平的方向发展。
数据集最近研究
最新研究方向
在机器翻译评估领域,XQ-MEval数据集的推出标志着对跨语言评分偏差问题的系统性探索进入新阶段。该数据集通过半自动构建流程,注入多维质量度量定义的错误并经由母语者筛选,生成了涵盖九种翻译方向、具有可控质量的伪翻译三元组,为评估自动翻译指标的公平性与一致性提供了首个跨语言平行质量基准。前沿研究聚焦于揭示当前主流评估指标在跨语言场景中的评分不一致性,实证表明平均策略与人类判断之间存在显著偏差,且指标在不同语言间对相同质量翻译的评分分布存在系统性差异。这一发现直接关联到多语言翻译系统评估的可靠性热点,促使学界重新审视传统平均评分方法的合理性,并推动了如语言特定全局归一化等校准策略的发展,旨在通过统一评分尺度以提升多语言评估的公平性。XQ-MEval的建立不仅为量化跨语言评分偏差提供了实证基础,也为开发更稳健、语言无偏的自动评估指标指明了方向,对促进多语言机器翻译技术的公正比较与持续优化具有深远意义。
相关研究论文
- 1XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics日本奈良先端科学技术大学院大学; 复旦大学 · 2026年
以上内容由遇见数据集搜集并总结生成



