GAMBIT+

Name: GAMBIT+
Creator: 雅典国立技术大学,希腊;电信研究所,葡萄牙;阿姆斯特丹大学,荷兰;里斯本高等技术学院,葡萄牙;ELLIS里斯本单元,葡萄牙
Published: 2025-10-08 18:09:03
License: 暂无描述

arXiv2025-10-08 更新2025-10-10 收录

下载链接：

https://huggingface.co/datasets/ailsntua/gambit-plus

下载链接

链接失效反馈

官方服务：

资源简介：

GAMBIT+是一个大规模挑战集，旨在评估机器翻译质量估计指标中性别偏见的程度。该数据集基于GAMBIT语料库，涵盖了英语文本中性别不明确的职业，并将其扩展到了三个没有性别或自然性别的源语言和十一个具有语法性别的目标语言，形成了33种源-目标语言对。每个源文本都与两个仅在职业术语的语法性别上有所不同的目标版本相匹配（男性与女性），所有相关的语法元素都进行了相应的调整。一个无偏见的QE指标应该对两个版本赋予相等或几乎相等的分数。数据集的规模、广度和完全并行设计，使得在所有语言中相同的一组文本都进行了对齐，从而能够对职业进行细粒度的偏见分析，并在整个数据集上进行系统性的比较。

提供机构：

雅典国立技术大学,希腊;电信研究所,葡萄牙;阿姆斯特丹大学,荷兰;里斯本高等技术学院,葡萄牙;ELLIS里斯本单元,葡萄牙

创建时间：

2025-10-08

搜集汇总

数据集介绍

构建方式

在机器翻译质量评估领域，GAMBIT+数据集的构建采用了多语言平行语料生成策略。该数据集基于GAMBIT语料库的英文文本，通过大型语言模型将性别模糊的职业术语翻译成11种具有语法性别的目标语言。针对每个源文本，研究团队分别生成仅职业术语语法性别不同的两个目标版本（阳性与阴性形式），同时保持其他语言要素的完全一致。为确保数据质量，采用LLM-as-a-judge方法对生成结果进行严格验证，最终构建出包含289,443个样本的大规模平行数据集。

特点

该数据集最显著的特征在于其完全平行的设计架构，涵盖3种源语言与11种目标语言的33种语言对组合。每个语言对均包含语义完全一致、仅职业术语性别形式不同的翻译对，为检测质量评估指标中的性别偏见提供了精准对照。数据集特别标注了国际标准职业分类代码，支持基于职业类型的细粒度偏见分析。其语言覆盖范围广泛，既包含自然性别语言，也涵盖无性别语言，为跨语言性别偏见研究提供了多维度的分析视角。

使用方法

研究人员可将该数据集作为基准测试工具，系统评估机器翻译质量评估指标的性别公平性。具体操作时，需将同一源文本的两种性别形式翻译分别输入待测评估系统，通过比较系统对阳性与阴性形式翻译的评分差异来量化性别偏见程度。数据集支持按职业类别和语言对进行分层分析，有助于识别特定职业领域或语言组合中的系统性偏见模式。该资源还可用于开发去偏见算法，通过监督学习训练更公平的质量评估模型。

背景与挑战

背景概述

GAMBIT+数据集于2025年由雅典国立技术大学、里斯本电信研究所等机构联合推出，旨在系统评估机器翻译质量评估指标中的性别偏见问题。该数据集基于原始GAMBIT语料库，扩展涵盖3种无性别或自然性别源语言与11种语法性别目标语言，构建了33个语言对的平行语料。其核心研究聚焦于当源文本中职业术语性别模糊时，质量评估指标对 masculine 与 feminine 形式翻译的评分差异，为自然语言处理领域的公平性评估提供了标准化基准。

当前挑战

该数据集致力于解决质量评估指标在性别模糊职业术语翻译中的系统性偏见问题，主要挑战包括：质量评估指标对语法性别标记的敏感性差异导致评分偏差，不同语言对间性别密度与指标偏见的关联性建模，以及职业 stereotypes 对翻译质量评分的隐性影响。在构建过程中面临跨语言语法性别一致性控制的复杂性，需确保 masculine 与 feminine 版本仅在职业术语性别标记存在差异，同时维持语义对等性与语法正确性，并通过LLM-as-a-judge方法验证数据质量。

常用场景

经典使用场景

在机器翻译质量评估领域，GAMBIT+数据集被广泛应用于检测和量化评估指标中的性别偏见。该数据集通过构建33种源语言-目标语言对的平行语料，为研究者提供了系统分析评估指标在性别模糊职业术语翻译中行为模式的标准基准。其精心设计的实验框架使得研究者能够精确测量不同质量评估指标对男性和女性形式翻译的评分差异，从而揭示潜在的性别偏好模式。

解决学术问题

GAMBIT+数据集有效解决了机器翻译质量评估中性别偏见量化研究的空白问题。传统研究受限于数据集规模小、职业覆盖范围窄和语言种类有限等制约，难以进行系统性的偏见分析。该数据集通过大规模平行语料构建，使得研究者能够深入探究评估指标在性别模糊语境下的行为模式，为开发无偏见的评估方法提供了坚实的实证基础，推动了计算语言学领域对算法公平性的深入研究。

衍生相关工作

基于GAMBIT+数据集的启发，研究社区衍生出多个重要研究方向。一系列针对特定语言对的性别偏见分析研究相继展开，深入探讨不同语言结构对评估指标偏见的影响机制。该数据集还促进了新型无偏见评估指标的开发，研究者通过对抗训练和数据增强等技术改进现有方法。在跨语言偏见传播研究方面，GAMBIT+为分析偏见在不同语言间的迁移规律提供了重要实验平台，推动了多语言自然语言处理领域的公平性研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集