naist-nlp/XQ-MEval
收藏Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/naist-nlp/XQ-MEval
下载链接
链接失效反馈官方服务:
资源简介:
XQ-MEval是一个用于评估自动指标在跨语言评分偏见方面的基准数据集,基于[CC BY-S 4.0](https://creativecommons.org/licenses/by-sa/4.0/)许可发布。该数据集通过在高质量翻译中注入不同数量的多维质量度量(MQM)定义的错误,实现了跨语言的可控和可比较的翻译质量。数据集基于Flores+构建,包含多种语言对和错误类型(如添加、遗漏、误译和未翻译)。数据集的组织结构包括两个主要文件夹:results(包含单错误注入的输出)和merged_result(包含多错误合并的输出)。每个实例包含源句子、参考翻译和带有错误标记的机器翻译。数据集还提供了详细的统计数据和使用说明。
XQ-MEval is a benchmark released under [CC BY-S 4.0](https://creativecommons.org/licenses/by-sa/4.0/) for evaluating automatic metrics with respect to cross-lingual scoring bias. This dataset is constructed by injecting varying numbers of Multidimensional Quality Metric (MQM)-defined errors into high-quality translations, enabling controlled and comparable translation quality across languages. The dataset is based on Flores+ and includes multiple language pairs and error types (e.g., Addition, Omission, Mistranslation, Untranslated). The dataset is organized into two main folders: results (containing outputs with single injected errors) and merged_result (containing outputs with multiple merged errors). Each instance includes the source sentence, reference translation, and machine translation with error annotations. The dataset also provides detailed statistics and usage instructions.
提供机构:
naist-nlp
搜集汇总
数据集介绍

构建方式
XQ-MEval是一个专为评估跨语言评分偏差而设计的质量平行基准数据集。其构建基于Flores+高质量翻译数据集,通过在多语言翻译中注入不同数量的多维质量指标(MQM)定义错误类型(包括添加、遗漏、误译和未翻译),从而生成可控且跨语言可比的翻译质量样本。该数据集覆盖九种语言对(如英中、英老等),每个语言对包含不同错误数量的翻译三元组,构建流程灵活可扩展,便于适配更多语言和错误类型。
使用方法
使用XQ-MEval时,可通过Hugging Face的datasets库轻松加载,调用load_dataset函数并指定配置名results或merged_result即可获取相应数据。加载后的每个样本包含源句、参照译文、含标记错误的机器翻译及元数据字段(如语言、错误类型和位置等),适用于评估自动度量指标对不同语言对及错误模式的敏感性。该数据集按语言方向和错误类型组织为Parquet文件,便于研究者进行高效的批量处理与分析。
背景与挑战
背景概述
机器翻译评估指标的跨语言评分偏差问题长期困扰着自然语言处理领域,传统评估方法多依赖单一语言对或人工构造的测试集,难以系统性地揭示指标在不同语言间的行为差异。XQ-MEval数据集由日本奈良先端科学技术大学院大学(NAIST)的刘靖轩、屈智等研究团队于2026年构建,旨在为自动评估指标提供一个关于跨语言评分偏差的质量平行基准。该数据集基于Flores+高质量翻译语料,通过向优秀译文中注入不同数量的多维质量指标(MQM)定义错误,构建出可控制的、跨语言间具有可比性的翻译质量样本,从而支撑对翻译评估指标在多种语言上的公平性与一致性研究。这一创新设计为相关领域提供了标准化评估框架,显著推动了多语言机器翻译评估的深入探索。
当前挑战
XQ-MEval数据集所解决的领域问题在于,自动评估指标在跨语言场景下常表现出显著的评分偏差,即同一指标对不同语言对的翻译质量评价标准不一致,这阻碍了多语言机器翻译系统的客观比较与优化。构建过程中面临的关键挑战包括:如何精准模拟各类MQM定义错误,确保注入的错误类型在多种语言中具有语义和结构上的等价性;如何控制不同质量等级间翻译样本的离散度与连续性,使得跨语言的质量分布具备可比性;以及如何通过人工筛选排除不合理样本,保证数据质量与实验的可重复性。这些挑战的克服使得XQ-MEval成为首款系统刻画跨语言评分偏差的专用基准数据集。
常用场景
经典使用场景
在机器翻译研究领域,自动评估指标的跨语言偏差问题长期困扰着学界,而XQ-MEval的诞生为这一困境提供了破解之道。该数据集通过向高质量译文中系统注入不同数量的多维质量指标(MQM)定义错误,构建了可控制且跨语言间具有可比性的翻译质量平行语料。其经典使用场景在于作为基准测试平台,用以检验各类自动评估指标在不同语言对上的评分公正性,涵盖英语与汉语、老挝语、日语、西班牙语等九种语言方向的评估任务,从而揭示各指标是否因语言特性的差异而产生系统性的偏好或歧视。
解决学术问题
XQ-MEval的构建旨在回应机器翻译评估领域中一个日益尖锐的学术问题——即现有自动评估指标因训练数据或算法设计而隐含的跨语言评分偏差,这一偏差可能导致对某些语言对的翻译质量评估失准,进而影响模型比较和系统优化的客观性。该数据集通过精心设计的注入错误机制和多元语言对覆盖,为量化指标偏差提供了首个严格可控的标尺,其意义在于推动学界从‘语言无关’的理想假设转向对‘语言有关’偏差的精细化建模,最终促进更公平、更鲁棒的翻译评估体系建构,对低资源语言的性能评测尤为关键。
实际应用
在实际应用中,XQ-MEval为工业界的机器翻译系统部署提供了不可或缺的质量监控工具。翻译服务提供商可利用该数据集定期检验其选用的自动评分指标在面向不同语种用户时是否保持一致性,从而避免因指标偏差导致的错误决策,如误判模型在低资源语言上的真实表现。此外,该数据集也服务于多语言内容生成产品的迭代优化,帮助工程师在语种扩展过程中识别并校正评估标准中的系统性偏差,确保用户在日本语、西班牙语乃至僧伽罗语等多样化语言环境中获得公允且可靠的翻译体验。
数据集最近研究
最新研究方向
XQ-MEval作为首个面向跨语言评分偏差的平行质量基准数据集,为神经机器翻译评估领域开辟了全新研究方向。该数据集创新性地基于多维度质量指标(MQM)定义的四类错误类型(增译、漏译、误译、未译),通过向高质量翻译中注入可控数量的错误,构建了覆盖九种语言对(英-中、英-老挝等)的细粒度评估样本。当前研究前沿聚焦于利用该基准系统揭露自动评估指标在跨语言场景下存在的系统性评分偏差,例如不同语言对间评估分数不可比、低资源语言评估失真等关键问题。结合大语言模型在机器翻译评估中的广泛应用,XQ-MEval为检验GPT-4o等模型在多语言平行评估中的公平性与鲁棒性提供了标准化测试工具,推动建立更可信的多语言翻译评估范式。该数据集的可扩展管道设计还支持向更多语种和错误类型延伸,为构建普惠性机器翻译系统提供方法论支撑。
以上内容由遇见数据集搜集并总结生成



