GeNTE

Name: GeNTE
Creator: 特伦托大学
Published: 2023-10-09 05:44:00
License: 暂无描述

arXiv2023-10-09 更新2024-06-21 收录

下载链接：

https://mt.fbk.eu/gente/

下载链接

链接失效反馈

官方服务：

资源简介：

GeNTE是由特伦托大学和Fondazione Bruno Kessler创建的双语测试集，专门用于评估性别中性翻译。该数据集包含1500个英意平行句，分为两类：Set-N包含性别模糊源句，需要中性翻译；Set-G包含性别明确的源句，应使用性别化（男性或女性）形式翻译。GeNTE旨在通过这些实例，评估机器翻译系统在适当情况下执行性别中性翻译的能力。数据集从Europarl语料库中自然发生的情况中提取，反映了行政/机构领域的正式通信情况，这是性别中性形式传统上所针对的上下文。

GeNTE is a bilingual test set specifically developed by the University of Trento and Fondazione Bruno Kessler for evaluating gender-neutral translation. This dataset contains 1,500 English-Italian parallel sentence pairs, divided into two categories: Set-N consists of source sentences with gender ambiguity that require neutral translations, while Set-G includes source sentences with explicit gender that should be rendered using gendered (male or female) forms. GeNTE aims to assess the capability of machine translation systems to perform gender-neutral translation when appropriate through these instances. The dataset is extracted from naturally occurring examples in the Europarl corpus, reflecting formal communications in the administrative and institutional domains, which is the context where gender-neutral forms have traditionally been targeted.

提供机构：

特伦托大学

创建时间：

2023-10-09

搜集汇总

数据集介绍

构建方式

GeNTE数据集的构建基于自然发生的英意平行语料，从Europarl语料库中提取了1500个包含人类指称的句子，分为两类：性别模糊的句子（Set-N）和性别明确的句子（Set-G）。Set-N中的句子需要中性翻译，而Set-G中的句子则需要保留性别标记的翻译。为了确保翻译的中性化，研究团队为每个原始的性别标记翻译创建了一个中性化的参考翻译，由三位专业翻译人员根据详细的指导手册进行编辑，确保了中性翻译的多样性和准确性。

特点

GeNTE数据集的显著特点在于其专注于性别中立的翻译评估，特别是在性别模糊的句子中。数据集包含了1500个英意平行句子，分为性别模糊和性别明确两类，能够有效评估机器翻译系统在中性翻译任务中的表现。此外，数据集通过对比性别标记和性别中立的翻译，提供了多样的参考翻译，确保了评估的全面性和准确性。

使用方法

GeNTE数据集主要用于评估机器翻译系统在性别中立翻译任务中的表现。研究者可以使用该数据集进行基准测试，通过对比系统生成的翻译与性别标记和中性化的参考翻译，评估系统在不同情境下的翻译质量。此外，数据集还提供了参考翻译的多样性，允许研究者测试不同评估指标的适用性，特别是那些能够有效区分性别中立翻译的指标。

背景与挑战

背景概述

GeNTE数据集由Andrea Piergentili、Beatrice Savoldi等研究人员于2023年创建，旨在解决机器翻译中的性别中立性问题。该数据集专注于从英语到意大利语的翻译，旨在通过提供一个自然的双语测试集来评估机器翻译系统生成性别中立翻译的能力。GeNTE的创建基于对中性语言感知和使用的调查，旨在应对机器翻译中常见的性别二元假设问题，尤其是在语法性别语言中，机器翻译系统往往默认使用男性形式，导致性别不平等的传播。该数据集的发布为研究性别中立翻译提供了必要的工具和资源，推动了自然语言处理领域对性别偏见的关注和解决。

当前挑战

GeNTE数据集面临的挑战主要集中在两个方面：首先，构建过程中需要克服中性翻译的复杂性，尤其是在语法性别语言中，中性翻译需要通过同义词或更复杂的重构来实现，这增加了数据集的构建难度。其次，现有的自动评估方法在评估中性翻译时存在局限性，传统的基于参考的评估方法难以准确衡量中性翻译的质量，尤其是在中性翻译与性别化翻译之间的细微差别上。此外，当前的机器翻译系统在生成中性翻译时表现不佳，导致需要手动后处理以生成中性翻译样本，这进一步增加了评估的复杂性。

常用场景

经典使用场景

GeNTE数据集的经典使用场景主要集中在机器翻译领域，特别是针对英语到意大利语的性别中性翻译任务。该数据集通过提供自然的双语测试集，帮助评估机器翻译系统在处理性别中性翻译时的表现。研究者可以利用GeNTE数据集来测试和改进翻译模型，确保其在性别不明确或无关的情况下，避免生成带有性别偏见的翻译结果。

衍生相关工作

GeNTE数据集的发布催生了一系列相关研究工作，特别是在性别中性翻译和机器翻译评估领域。研究者们基于GeNTE数据集开发了新的自动评估方法，如无参考评估协议，以更好地评估性别中性翻译的质量。此外，GeNTE数据集还启发了对其他语法性别语言（如西班牙语、法语等）的性别中性翻译研究，推动了跨语言性别中性翻译技术的发展。

数据集最近研究