FairTranslate
收藏arXiv2025-04-22 更新2025-04-24 收录
下载链接:
https://huggingface.co/datasets/FairTranslate
下载链接
链接失效反馈资源简介:
FairTranslate数据集是由法国IRT圣埃克絮佩里研究机构创建的,包含2418对英文-法文句子,专注于评估机器翻译中的性别偏见。数据集中的句子与特定职业相关,并标注了丰富的元数据,如职业的性别刻板印象、语法性别指示的模糊性以及真实性别标签。该数据集旨在评估机器翻译系统如何处理英语到法语的非二元性别偏见,为公平和包容的语言使用提供基准。
提供机构:
法国IRT圣埃克絮佩里
创建时间:
2025-04-22
AI搜集汇总
数据集介绍

构建方式
FairTranslate数据集的构建过程分为两个主要步骤:首先,研究人员基于法语生成目标句子,确保捕捉到法语中与性别标记相关的所有结构;随后,将这些法语句子翻译成英语,并保持性别变体的一致性。在法语句子生成阶段,研究人员选择了与性别刻板印象相关的职业列表,并通过GPT-4o和GPT-o1在人工监督下生成了多样化的句子。每个职业句子均被复制为阳性、阴性和包容性三种性别变体,并通过人工标注确保数据的完整性和一致性。英语翻译阶段则通过GPT-4o完成,并经过人工验证以确保翻译的准确性和一致性。
特点
FairTranslate数据集包含2418个英法句子对,每个句子围绕一个职业展开,并标注了丰富的元数据,如性别标签(男性、女性或包容性)、性别模糊性标记以及职业的刻板印象对齐情况。该数据集的一个显著特点是每个例句均以三种性别变体(男性、女性和包容性)呈现,便于进行反事实干预和直接比较。此外,数据集中还包含了职业的法语性别形式列表,支持对模型在翻译中处理性别一致性的精确评估。
使用方法
FairTranslate数据集主要用于评估机器翻译系统在英法翻译中的性别偏见,特别是对包容性语言的处理能力。研究人员可以通过该数据集对大型语言模型(如Gemma2-2B、Mistral-7B、Llama3.1-8B和Llama3.3-70B)进行零样本评估,分析其在翻译性别标记和包容性语言时的表现。数据集支持多种提示策略(如任务提示、道德提示和语言提示),以探究不同策略对翻译结果的影响。此外,数据集还可用于研究职业术语的性别形式翻译和长距离共指消解能力。
背景与挑战
背景概述
FairTranslate是由Fanny Jourdan、Yannick Chevalier和Cécile Favre等研究人员于2025年提出的一个专门用于评估机器翻译系统中非二元性别偏见的英语-法语数据集。该数据集包含2418个句子对,涵盖了与职业相关的文本,并标注了丰富的元数据,如职业的刻板印象对齐、语法性别指示的模糊性以及真实性别标签(男性、女性或包容性)。FairTranslate的创建旨在解决大型语言模型(LLMs)在处理包容性语言(如单数'they'代词)时的不足,特别是在英语到法语的翻译任务中。该数据集的发布为研究性别偏见和包容性语言在自然语言处理中的应用提供了重要的资源,推动了相关领域的发展。
当前挑战
FairTranslate数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,数据集旨在解决机器翻译中性别偏见的问题,特别是非二元性别表达的准确翻译。这涉及到处理英语中的单数'they'代词以及法语中的性别标记(如'iel')等复杂语言现象。在构建过程中,研究人员需要克服法语包容性语言缺乏标准化的挑战,例如职业名词的包容性形式(如'infirmier.ière')的选择和标注。此外,确保数据集在性别、刻板印象和模糊性等维度上的平衡性和代表性也是一项重要挑战。这些挑战反映了在机器翻译中实现性别包容性的复杂性和重要性。
常用场景
经典使用场景
FairTranslate数据集在机器翻译领域被广泛用于评估性别偏见,特别是在处理非二元性别和包容性语言时。该数据集包含2418个英语-法语句对,涵盖了多种职业场景,每个句子都标注了性别标签(男性、女性或包容性)。研究人员利用FairTranslate来测试大型语言模型(LLM)在翻译过程中是否能够准确处理性别中立的代词(如英语中的单数'they')以及法语中的包容性形式(如'iel')。
解决学术问题
FairTranslate解决了机器翻译中性别偏见评估的多个学术问题。首先,它填补了非二元性别翻译评估的空白,使得研究人员能够系统性地分析模型在处理包容性语言时的表现。其次,通过提供丰富的元数据(如职业的刻板印象对齐、语法性别指示模糊性等),该数据集支持细粒度的模型性能分析。此外,FairTranslate还揭示了LLM在翻译性别中立语言时的系统性偏差,为改进模型提供了数据支持。
衍生相关工作
FairTranslate的发布激发了多项相关研究,特别是在性别偏见和包容性语言技术领域。例如,一些研究团队利用该数据集开发了新的评估框架,用于测试多语言模型在翻译非二元性别术语时的表现。此外,FairTranslate还被用于比较不同提示策略(如道德提示和语言提示)对翻译质量的影响,进一步推动了机器翻译中性别公平性的研究。
以上内容由AI搜集并总结生成



