Gender Issues in Machine Translation

github2021-12-16 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/NatGenMT

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在作为机器翻译中性别问题的评估基准。它考虑了在机器翻译背景下建模和处理性别语言的挑战，并扩展了之前使用合成示例识别问题的工作。该数据集专注于中性人称参考翻译为性别形式时出现的问题类别。数据集包括英文源句和四种目标性别语言（法语、德语、西班牙语和俄语），揭示了MT编码中的性别问题，发现了以前手动方法未覆盖的新问题。

This dataset is designed to serve as an evaluation benchmark for gender issues in machine translation. It addresses the challenges of modeling and processing gendered language within the context of machine translation, and extends previous work that identified issues using synthetic examples. The dataset focuses on the category of problems that arise when translating neutral personal references into gendered forms. It includes English source sentences and four target gendered languages (French, German, Spanish, and Russian), revealing gender-related issues in MT encoding and uncovering new problems not previously covered by manual methods.

创建时间：

2021-07-16

原始信息汇总

数据集概述

数据集名称

Gender Issues in Machine Translation

数据集目的

作为评估机器翻译中性别问题的基准。

数据集内容

源语言：英语
目标语言：法语、德语、西班牙语、俄语
数据实例：包含英语句子对及其在性别化语言中的翻译，每对句子在单个词（人称实体）上有所不同。

数据集创建

创建流程

筛选出仅含单一人类实体的性别中性句子。
对源句中的人类实体进行扰动，形成原始/扰动句子对。
将所有对翻译为目标语言，并筛选出人类实体性别在原始和扰动句子间不同的对。
人类标注者验证这些“有风险”的对。
添加随机的“无风险”对到数据集中。

语言统计

法语：100对“有风险”，100对“无风险”
德语：100对“有风险”，100对“无风险”
西班牙语：100对“有风险”，100对“无风险”
俄语：59对“有风险”，100对“无风险”

数据集结构

数据字段

原始/替换句子：英语句子及其目标语言翻译
单词：英语句子中的单词及其目标语言翻译
语法性别：目标语言中单词的语法性别（女性或男性）

使用考虑

社会影响

旨在通过提供评估基准，促进机器翻译中的公平性，特别是性别偏见问题。

已知限制

数据集规模相对较小。
所选句子依赖于所使用的翻译模型，本数据集使用Google Translate。

搜集汇总

数据集介绍

构建方式

该数据集通过自动化流程构建，首先筛选出仅包含单一人类实体的性别中性句子，随后对源句子中的人类实体进行扰动，形成原始/扰动句子对。接着，将这些句子对翻译为目标语言，并筛选出在翻译过程中人类实体性别发生变化的句子对。最后，通过人工验证步骤确认这些“有风险”的句子对，并随机添加“无风险”句子对以丰富数据集。

特点

该数据集专注于机器翻译中的性别问题，特别关注当中性指代翻译为性别化形式时暴露的模型性别偏好。数据集包含英语源句子及其在四种性别化目标语言（法语、德语、西班牙语和俄语）中的翻译，涵盖了三种语言家族。通过扰动技术，数据集揭示了机器翻译编码中的性别偏见，发现了以往手动方法未覆盖的新问题。

使用方法

该数据集主要用于评估机器翻译模型在处理性别问题时的表现。研究人员可以通过分析数据集中的“有风险”和“无风险”句子对，评估模型在翻译中性指代时的性别偏好。数据集的结构清晰，每个示例包含原始句子和扰动句子的六行条目，便于进行对比分析。使用该数据集时，建议结合目标语言的语法性别信息，深入探讨模型在性别化翻译中的行为模式。

背景与挑战

背景概述

在机器翻译领域，性别偏见问题一直是研究的热点之一。2020年，Hila Gonen和Kellie Webster等人提出了《Gender Issues in Machine Translation》数据集，旨在为机器翻译中的性别问题提供评估基准。该数据集通过自动生成扰动句子对，揭示了在翻译过程中模型对性别标记的偏好问题。数据集涵盖了英语作为源语言，法语、德语、西班牙语和俄语作为目标语言，重点关注中性人称代词在翻译为性别标记语言时产生的偏差。这一研究不仅扩展了先前基于人工标注的性别问题识别方法，还为机器翻译模型的公平性评估提供了重要工具。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，机器翻译中的性别偏见问题复杂且多样，尤其是在缺乏明确性别线索的情况下，模型倾向于选择某种性别形式，这可能导致翻译结果的不公平性。其次，数据集的构建依赖于自动生成扰动句子对，并通过人工验证筛选出存在问题的翻译对，这一过程对语言多样性和翻译模型的依赖性较高。此外，数据集的规模相对较小，且源数据主要来源于特定领域（如Reddit的“career”板块），可能限制了其泛化能力。最后，尽管数据集旨在促进公平性，但其评估结果仍受限于所使用的翻译模型（如Google Translate），可能无法完全反映其他模型的性能。

常用场景

经典使用场景

在机器翻译领域，性别偏见问题一直是研究的重点之一。该数据集通过提供包含性别中性句子的翻译对，帮助研究人员评估和检测机器翻译模型在处理性别相关语言时的表现。通过对比原始句子和经过扰动后的句子在翻译中的性别差异，研究者能够深入分析模型在无明确性别提示情况下的性别偏好。

解决学术问题

该数据集解决了机器翻译中性别偏见的检测与评估问题。通过自动生成的扰动句子对，研究者能够识别出模型在翻译过程中对性别中性词汇的偏好，从而揭示模型潜在的性别偏见。这一数据集为机器翻译领域的公平性和包容性研究提供了重要的基准，推动了性别中立翻译技术的发展。

衍生相关工作

该数据集衍生了一系列关于性别偏见检测和机器翻译公平性的研究工作。例如，基于该数据集的研究提出了新的扰动生成方法，进一步扩展了性别偏见检测的范围。此外，许多研究利用该数据集开发了新的评估指标和模型优化技术，推动了机器翻译领域在性别公平性方面的技术进步。这些工作不仅提升了模型的性能，也为未来的研究提供了丰富的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集