XQ-MEval

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/naist-nlp/XQ-MEval

下载链接

链接失效反馈

官方服务：

资源简介：

XQ-MEval是一个用于评估跨语言评分偏差的自动评估指标的质量平行基准数据集。该数据集基于Flores+高质量翻译数据集，通过注入多维质量度量（MQM）定义的不同数量的错误构建，支持跨语言的可控和可比较的翻译质量评估。数据集包含英语与中文、老挝语、日语、西班牙语、法语、印尼语、越南语、德语和僧伽罗语的双语对，错误类型包括添加、遗漏、误译和未翻译。数据集分为两个主要部分：results文件夹包含单错误注入的输出，merged_result文件夹包含多错误合并的输出。每个数据实例包含源句子、参考翻译、带有标记错误的机器翻译以及相关元数据。该数据集适用于文本生成、翻译和评估任务，支持对自动翻译评估指标的跨语言偏差进行系统研究。

XQ-MEval is a quality parallel benchmark dataset for evaluating the cross-lingual scoring bias of automatic evaluation metrics. The dataset is constructed based on the Flores+ high-quality translation dataset by injecting different amounts of errors defined by Multidimensional Quality Metrics (MQM), supporting controllable and comparable cross-lingual translation quality evaluation. The dataset includes bilingual pairs of English with Chinese, Lao, Japanese, Spanish, French, Indonesian, Vietnamese, German, and Sinhala, with error types including additions, omissions, mistranslations, and untranslated segments. The dataset is divided into two main parts: the results folder contains outputs with single-error injections, and the merged_result folder contains outputs with merged multiple errors. Each data instance includes the source sentence, reference translation, machine translation with marked errors, and related metadata. The dataset is suitable for text generation, translation, and evaluation tasks, supporting systematic research on cross-lingual bias in automatic translation evaluation metrics.

创建时间：

2026-05-07

原始信息汇总

XQ-MEval 数据集概述

基本信息

数据集名称：XQ-MEval
许可证：CC-BY-SA 4.0
任务类别：文本生成、翻译
语言：英语、中文、日语、老挝语、西班牙语、僧伽罗语、德语、法语、越南语、印尼语
数据规模：1K < n < 10K
标签：文本、翻译、评估

数据集描述

XQ-MEval 是一个用于评估自动翻译评价指标跨语言评分偏差的质量平行基准数据集。该数据集通过向高质量翻译中注入不同数量的多维质量度量（MQM）定义的错误构建而成，实现了跨语言的可控且可比较的翻译质量。

数据来源

高质量翻译数据集：Flores+
语言对（9组）：
- 英语-中文（en-zh）
- 英语-老挝语（en-lo）
- 英语-日语（en-ja）
- 英语-西班牙语（en-es）
- 英语-法语（en-fr）
- 英语-印尼语（en-id）
- 英语-越南语（en-vi）
- 英语-德语（en-de）
- 英语-僧伽罗语（en-si）

错误类型

添加（Addition）
遗漏（Omission）
误译（Mistranslation）
未翻译（Untranslated）

数据分布

各语言对质量等级三元组数量分布

质量等级	en-zh	en-lo	en-ja	en-vi	en-id	en-fr	en-es	en-si	en-de
1	776	753	775	771	782	775	771	765	774
2	2,109	2,053	2,078	2,056	2,095	1,992	2,016	2,064	2,049
3	2,548	2,627	2,441	2,420	2,421	2,068	2,233	2,489	2,337
4	1,466	1,704	1,324	1,387	1,311	957	1,069	1,432	1,234
5	406	558	340	428	312	198	203	361	313

数据集组织结构

数据集包含两个文件夹：

results：包含单一注入错误（4种类型）的GPT-4o输出。文件名格式为：<源语言>-<目标语言>-<错误类型>.parquet
merged_result：包含通过合并单一错误输出形成的多错误输出。文件名格式为：<源语言>-<目标语言>-merge-<质量等级>.parquet

数据字段说明

字段	描述
language	翻译的目标语言
count_id	条目的顺序索引
segment_id	Flores+中句子的索引
error_type	注入错误的类型
error_position	注入错误的位置（head 或 end）
reject	人工筛选时是否被拒绝
number	merged_mt中注入的错误数量
spans	注入错误的索引位置
src	来自Flores+的英语源句子
ref	来自Flores+的目标语言参考译文
mt	包含单个注入错误的翻译（用`<v></v>`标记）
merged_mt	包含多个错误片段的合并翻译（用`<v></v>`标记）

数据加载示例

python from datasets import load_dataset

ds_results = load_dataset("naist-nlp/XQ-MEval", "results") ds_merged = load_dataset("naist-nlp/XQ-MEval", "merged_result")

引用信息

如果您在研究中使用XQ-MEval，请引用以下论文：

arXiv: 2604.14934

搜集汇总

数据集介绍

构建方式

XQ-MEval的构建基于Flores+高质量翻译数据集，通过向其中注入不同数量的多维质量指标（MQM）定义的错误，包括添加、遗漏、误译和未翻译四种错误类型，从而生成具有可控翻译质量的平行三元组。构建流程具有灵活性，可根据需求扩展到不同语言和错误类型。错误注入采用两种方式：一种在句子头部或尾部注入单一错误，另一种将多个错误组合形成多错误样本。此外，通过人工筛选剔除不合格样本，确保数据质量。最终构建了涵盖9个语言方向、质量等级从1到5的数据集，每个等级对应不同错误数量。

特点

该数据集的核心特点在于其跨语言评分偏置的评估能力，专为评估自动评价指标在不同语言间的一致性而设计。XQ-MEval包含超过18,000个三元组，覆盖英语到中文、老挝语、日语、西班牙语、法语、印尼语、越南语、德语和僧伽罗语等多种语言对。每个样本均提供源句、参考译文及带有标记错误位置的机器译文。数据集中不同质量等级的样本分布均匀，从1个错误到5个错误均有体现，使得对翻译质量的细粒度评估成为可能。同时，数据集采用CC BY-SA 4.0许可协议开放，便于学术研究使用。

使用方法

用户可通过HuggingFace Datasets库轻松加载XQ-MEval。使用`load_dataset("naist-nlp/XQ-MEval", "results")`获取含单一错误注入的样本，或使用`load_dataset("naist-nlp/XQ-MEval", "merged_result")`获取含多错误组合的样本。数据以Parquet格式存储，每个样本包含语言、索引、错误类型、错误位置、源句、参考译文及标记错误位置的机器译文等字段。用户可根据语言方向、错误类型或质量等级选择所需数据子集，用于评估自动评价指标在不同语言和错误场景下的表现，或进一步训练和优化翻译质量评估模型。

背景与挑战

背景概述

机器翻译评估指标的跨语言评分偏差是自然语言处理领域长期悬而未决的核心难题。为系统性地探究该问题，来自日本奈良先端科学技术大学（NAIST）的研究团队于2026年提出了XQ-MEval基准数据集。该数据集以Flores+高质量翻译语料为基石，通过注入基于多维质量指标（MQM）定义的不同类型与数量的错误（如添加、遗漏、误译、未翻译），构造了横跨九种语言对（英-中、英-老挝、英-日、英-西、英-法、英-印尼、英-越、英-德、英-僧伽罗语）的可控平行质量评估资源。XQ-MEval的发布为量化与缓解自动化评估指标在不同语言上的评分不一致性提供了标准化测试平台，对推动多语言机器翻译评估的公平性与鲁棒性研究具有里程碑意义。

当前挑战

该数据集所应对的领域挑战在于：现有自动化评估指标（如BLEU、COMET）在多语言场景下普遍存在评分偏差，即同一指标对不同语言对的译文质量评估标准与人类判断的一致性差异显著，缺乏跨语言公平性。构建过程中面临的主要挑战包括：（1）如何在保持翻译自然度的前提下精确控制错误类型与数量，避免人工痕迹过重；（2）如何平衡各语言对的样本分布，确保低资源语言（如老挝语、僧伽罗语）仍具备统计学意义；（3）面对10K以内的规模限制，如何通过多错误组合的合并策略生成丰富且可区分的质量梯度，以支持细粒度偏差分析。

常用场景

经典使用场景

在机器翻译与自然语言处理领域，对译文质量的自动评估一直是一个核心且富有挑战性的课题。XQ-MEval数据集正是为这一任务量身打造，其最经典的使用场景在于作为评测基准来检验各类自动评估指标（如BLEU、chrF、COMET、BLEURT等）在不同语言对上的评分偏差。通过向高质量译文中精准注入数量可控且类型明确的MQM错误（如增译、漏译、误译、未译），该数据集构建了一套包含九种语言对的质量可控三元组（源句-参考译-待评译），使得研究者能够系统性地考察各评估指标在跨语言场景下的鲁棒性与公平性，尤其适用于新涌现的基于大型语言模型的评测范式的对照实验。

实际应用

在实际产业应用中，XQ-MEval为机器翻译系统的质量控制与迭代提供了科学依据。企业可以利用该数据集对其内部或第三方翻译质量评估工具进行压力测试，快速识别出特定语言对（尤其是低资源语言如老挝语、僧加罗语）上评估分数失真的风险环节。例如，本地化公司或跨境内容平台在引入新的翻译引擎或上线多语言产品时，可依据XQ-MEval的评测结果选择更适应目标语言特点的评估指标，从而避免因误判导致的上线风险。此外，该数据集构建过程中高灵活性的错误注入管线，也启发了开发者针对特定业务需求（如术语一致性、文化适配性）定制化生成评估数据，有效支撑了多语言内容审核与质量监控的自动化进程。

衍生相关工作

XQ-MEval的发布为跨语言评估领域注入了新的活力，直接衍生了一系列富有启发性的后续工作。一方面，研究者以该数据集为基准，对现有主流评估模型（如COMET-22、BLEURT-20）进行了深入的偏差分析，揭示了不同指标在对齐人类判断时表现出的语种特异性偏好。另一方面，该数据集的构造范式催生了动态生成式评测数据集的研究思路，部分工作开始尝试将错误注入方法从规则化向神经化扩展，以生成更贴近真实分布的错误模式。此外，XQ-MEval的发布也促进了面向低资源语言的评估指标优化研究，鼓励学界在模型训练阶段引入跨语言评分偏差约束，涌现出若干旨在提升评估公平性的多任务学习与对抗训练策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集