WinoMTDE
收藏arXiv2025-02-26 更新2025-02-28 收录
下载链接:
https://github.com/michellekappl/mt_gender_german
下载链接
链接失效反馈官方服务:
资源简介:
WinoMTDE数据集是由柏林工业大学的研究人员创建的,旨在评估德语机器翻译系统中的性别偏见。该数据集包含288个德语句子,这些句子根据Winograd模式构建,每个句子都有一个明确性别的主题以及另一个相反性别的主题。数据集根据德国劳动统计局的数据进行平衡,以性别和刻板印象为标准,分为两个子集:WinoMTDEpro和WinoMTDEanti。该数据集可用于评估机器翻译系统在处理性别和职业刻板印象方面的性能。
The WinoMTDE dataset was developed by researchers at the Technical University of Berlin with the aim of assessing gender bias in German machine translation systems. It consists of 288 German sentences built upon Winograd schemas, each of which features a theme with a clearly defined gender and another theme with the opposite gender. The dataset is balanced in terms of gender and occupational stereotypes using data from Germany's Federal Labor Statistical Office, and is divided into two subsets: WinoMTDEpro and WinoMTDEanti. This dataset can be employed to evaluate the performance of machine translation systems when handling gender and occupational stereotypes.
提供机构:
柏林工业大学
创建时间:
2025-02-26
搜集汇总
数据集介绍

构建方式
WinoMTDE数据集是一个针对德语机器翻译(MT)系统中职业刻板印象和代表性不足的性别偏见评估测试集。该数据集基于Stanovsky等人(2019)提出的自动评估方法,并扩展到了具有语法性别的德语。WinoMTDE数据集包含288个德语句子,这些句子在性别和刻板印象方面是平衡的,并使用德国劳动力统计数据进行了注释。该数据集的构建过程涉及将Stanovsky等人(2019)提出的WinoMT数据集中的英语句子翻译成德语,并根据德国劳动统计局的统计数据对这些句子进行性别和刻板印象的注释。
使用方法
使用WinoMTDE数据集进行性别偏见评估的方法包括以下三个主要步骤:翻译、预测和评估。首先,使用选定的MT模型将WinoMTDE测试集中的每个句子从德语翻译成目标语言。然后,使用fast-align工具将源句和目标句进行映射,并使用语言特定的工具确定名词的性别。最后,根据预测的性别信息,计算不同的指标来评估MT模型的性能。这些指标包括准确性、性别基础F1分数差距(ΔG)和刻板印象基础性能差距(ΔS)。
背景与挑战
背景概述
在全球化背景下,机器翻译(MT)系统在日常交流中扮演着重要角色。然而,这些系统可能因性别偏见而出现翻译错误,导致误解。为了评估和减少德语机器翻译中的性别偏见,Kappl等人创建了WinoMTDE数据集。该数据集基于Stanovsky等人在2019年提出的自动评估方法,扩展至德语,包含288个德语句子,平衡了性别和职业刻板印象。WinoMTDE旨在评估五款流行的MT系统和一款大型语言模型,以揭示性别偏见的存在。
当前挑战
WinoMTDE数据集和相关研究揭示了德语MT系统中的性别偏见挑战。首先,所解决的领域问题是性别偏见,即MT系统在翻译过程中可能错误地表现女性和强化职业刻板印象。其次,构建过程中遇到的挑战包括数据集规模相对较小,可能导致评估的性别偏见范围有限;职业刻板印象的注释基于德国劳工统计数据,可能存在主观性;数据集缺乏非二元代词和中性职业术语,限制了分析范围。此外,研究结果还表明,MT模型在翻译德语到其他具有性别语法结构的语言时,仍然存在性别偏见,这表明问题源于模型架构和训练数据的系统性偏见。
常用场景
经典使用场景
WinoMTDE数据集主要用于评估机器翻译(MT)系统中职业刻板印象和代表性不足的问题。该数据集包含288个德语句子,这些句子在性别和刻板印象方面进行了平衡,并使用德国劳动统计数据进行了注释。通过对五个广泛使用的MT系统和大型语言模型进行大规模评估,WinoMTDE揭示了大多数模型中存在的持续偏见。该数据集和评估代码在https://github.com/michellekappl/mt_gender_german上公开可用。
解决学术问题
WinoMTDE数据集解决了在机器翻译系统中性别偏见的问题,特别是针对德语这一具有语法性别的语言。它通过引入一个德语性别偏见评估测试集,扩展了Stanovsky等人(2019)提出的自动评估方法。通过系统地分析五个广泛使用的MT系统,该数据集揭示了性别偏见在机器翻译中的普遍存在,强调了开发更包容和公平的MT系统的紧迫性。
实际应用
WinoMTDE数据集的实际应用场景包括评估和改进机器翻译系统的性别偏见问题。它可以帮助开发者和研究人员识别和解决MT系统中存在的性别偏见,从而提高翻译的准确性和公平性。此外,该数据集还可以用于教育和培训,帮助人们了解性别偏见在MT中的影响,并促进对公平和包容性的认识。
数据集最近研究
最新研究方向
WinoMTDE数据集的最新研究方向聚焦于评估机器翻译(MT)系统中的性别偏见,特别是职业刻板印象和性别代表性不足的问题。研究通过将Stanovsky等人(2019年)提出的自动评估方法扩展到德语这一具有语法性别的语言,构建了一个包含288个德语句子的数据集,这些句子在性别和刻板印象方面均达到平衡。研究者使用德国劳动力统计数据对刻板印象进行了标注,并对五个广泛使用的MT系统和大型语言模型进行了大规模评估。结果显示,大多数模型中存在持续的偏见,而大型语言模型的表现优于传统系统。该研究揭示了MT系统在翻译过程中可能存在的性别偏见问题,为自然语言处理领域的公平性和准确性研究提供了重要的参考。
相关研究论文
- 1Evaluating Gender Bias in German Machine Translation柏林工业大学 · 2025年
以上内容由遇见数据集搜集并总结生成



