five

mGeNTE

收藏
arXiv2025-01-16 更新2025-01-18 收录
下载链接:
https://huggingface.co/datasets/FBK-MT/mGeNTE
下载链接
链接失效反馈
官方服务:
资源简介:
mGeNTE是一个多语言数据集,旨在支持性别中立翻译和语言建模的研究。该数据集由布鲁诺·凯斯勒基金会、博洛尼亚大学和汉堡大学的研究团队创建,扩展了现有的GeNTE语料库,涵盖了英语-意大利语、英语-德语和英语-西班牙语的语言对。数据集包含4500条句子级别的三元组,每条三元组由源语言句子、性别化目标语言句子和性别中立目标语言句子组成。数据来源于Europarl语料库,经过专家和翻译学生的精心筛选和编辑,确保了数据的高质量和自然性。该数据集的应用领域包括自动性别中立翻译、语言模型训练以及性别中立语言的重写,旨在解决多语言环境中性别偏见问题,推动更公平的语言技术发展。

mGeNTE is a multilingual dataset developed to support research on gender-neutral translation and language modeling. It was constructed by research teams from the Bruno Kessler Foundation, the University of Bologna, and the University of Hamburg, and expands upon the existing GeNTE corpus, covering language pairs including English-Italian, English-German, and English-Spanish. The dataset comprises 4500 sentence-level triplets, with each triplet containing a source language sentence, a gendered target language sentence, and a gender-neutral target language sentence. Sourced from the Europarl corpus, the data has been meticulously screened and edited by experts and translation students to guarantee its high quality and naturalness. Its application areas cover automatic gender-neutral translation, language model training, and gender-neutral language rewriting, with the goal of addressing gender bias in multilingual environments and promoting the development of more equitable language technologies.
提供机构:
布鲁诺·凯斯勒基金会, 博洛尼亚大学, 汉堡大学
创建时间:
2025-01-16
原始信息汇总

数据集概述

数据集名称

mGeNTE(Multilingual Gender-Neutral Translation Evaluation)

数据集主页

https://mt.fbk.eu/mgente/

数据集简介

mGeNTE 是一个多语言语料库,旨在评估性别中立语言和自动翻译。该数据集基于从 Europarl 语料库 中提取的欧洲议会演讲数据,并且是双语 GeNTE 数据集的多语言扩展。

数据集结构

数据实例

数据集包含两种主要配置类型:

  • mGeNTE:完整的 GeNTE 语料库及其注释,包含每个语言对的 tsv 文件。
  • mGeNTE_common:GeNTE 语料库的子集,包含 3 种替代的性别中立参考翻译。

数据字段

  • mGeNTE 中的每个 tsv 文件包含 10 个以制表符分隔的列:

    • ID: 唯一的 mGeNTE ID。
    • Europarl_ID: 来自 Europarl 的 common-test-set 2 的原始句子 ID。
    • SET: 指示条目属于 Set-G 还是 Set-N 子集。
    • SRC: 英语源句子。
    • REF-G: 目标语言中的性别化参考翻译。
    • REF-N: 由专业翻译人员生成的性别中立参考翻译。
    • COMMON: 指示条目是否属于 GeNTE 公共集(是/否)。
    • GENDER: 对于属于 Set-G 的条目,指示条目是女性还是男性(F/M)。
    • REF-G_ann: 带有目标性别化单词注释的性别化参考翻译的标记化版本。
    • G-WORDS: 以 "&" 分隔的注释目标性别化单词列表。
  • mGeNTE_common 中的每个 tsv 文件包含 11 个以制表符分隔的列:

    • ID: 唯一的 GeNTE ID。
    • Europarl_ID: 来自 Europarl 的 common-test-set 2 的原始句子 ID。
    • SET: 指示条目属于 Set-G 还是 Set-N 子集。
    • SRC: 英语源句子。
    • REF-G: 目标语言中的性别化参考翻译。
    • REF-N1: 由翻译人员 1 生成的性别中立参考翻译。
    • REF-N2: 由翻译人员 2 生成的性别中立参考翻译。
    • REF-N3: 由翻译人员 3 生成的性别中立参考翻译。
    • GENDER: 对于属于 Set-G 的条目,指示条目是女性还是男性(F/M)。
    • REF-G_ann: 带有目标性别化单词注释的性别化参考翻译的标记化版本。
    • G-WORDS: 以 "&" 分隔的注释目标性别化单词列表。

数据集创建

创建动机

GeNTE 旨在测试性别中立语言建模,并评估模型在理想情况下执行性别中立翻译的能力。数据集包含平行句子,这些句子涉及人类指称,并平等地代表两种翻译场景:

  • Set-N:包含性别模糊的源句子,需要在翻译中以中立方式呈现。
  • Set-G:包含性别明确的源句子,应在翻译中正确呈现为性别化(男性或女性)形式。

数据来源

数据集包含从 Europarl 语料库(common test set 2)中提取和编辑的文本数据,所有数据权利归欧盟和/或相应的版权持有者所有。

注释

对于从 Europarl 中提取的每个句子对(src, ref),mGeNTE 包括目标语言中的额外参考翻译,该翻译仅在指称人类实体时使用中性表达。

数据集维护者

mGeNTE 的作者是数据集的维护者。协调维护工作请联系 Beatrice Savoldi (FBK) bsavoldi@fbk.eu

许可证信息

mGeNTE 语料库根据 Creative Commons Attribution 4.0 International 许可证(CC BY 4.0)发布。

引用

bibtex @misc{savoldi-etal-2025-mgente, title = {{mGeNTE: A Multilingual Resource for Gender-Neutral Language and Translation}}, author = "Savoldi, Beatrice and Cupin, Eleonora and Manjinder, Thind and Lauscher, Anne and Bentivogli, Luisa", month = jan, year = "2025", publisher = "arxiv", url = " " }

贡献者

感谢 @BSavoldi 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
mGeNTE数据集的构建基于Europarl语料库,通过专家和翻译学生的精心筛选和修订,确保了数据的高质量。首先,从Europarl中提取了包含性别相关现象的句子,并通过正则表达式进一步筛选,确保每个句子在目标语言中具有明确的性别表达。随后,对这些句子进行了手动修订,确保性别中性和性别明确的句子在目标语言中能够准确表达。最终,数据集包含了4500个句子级别的<源语言,性别明确目标语言,性别中性目标语言>三元组,涵盖了英语-意大利语、英语-德语和英语-西班牙语三种语言对。
特点
mGeNTE数据集的特点在于其多语言性和性别中性的双重关注。该数据集不仅涵盖了三种具有丰富性别形态的语言,还通过精心设计的句子对,提供了性别明确和性别中性两种翻译场景。每个语言对包含1500个句子,分别用于测试模型在性别明确和性别中性翻译中的表现。此外,数据集还通过手动标注目标语言中的性别词汇,进一步丰富了数据的语言学信息,使其成为研究性别中性翻译和语言建模的理想资源。
使用方法
mGeNTE数据集的使用方法主要集中在性别中性翻译和语言建模的研究上。研究人员可以利用该数据集评估机器翻译模型在性别中性翻译任务中的表现,特别是在处理性别模糊的源句子时,模型是否能够生成性别中性的目标语言句子。此外,数据集还可用于训练和测试语言模型,帮助模型更好地理解和生成性别中性的语言表达。通过对比性别明确和性别中性翻译的结果,研究人员可以进一步探讨语言模型在处理性别相关问题时的偏差和改进空间。
背景与挑战
背景概述
mGeNTE数据集是一个多语言资源,旨在支持性别中立语言和翻译的研究。该数据集由Beatrice Savoldi等人于2025年创建,扩展了早期的双语GeNTE语料库,涵盖了英语-意大利语、英语-德语和英语-西班牙语三种语言对。mGeNTE的核心研究问题在于解决语法性别语言中的性别偏见问题,特别是在自动翻译和语言建模中如何避免不必要的性别二元假设。该数据集的创建背景反映了社会对性别平等和语言包容性的日益关注,尤其是在语法性别语言中,男性形式往往被过度使用,导致语言技术中的性别偏见问题。mGeNTE的发布为多语言和跨语言的性别中立研究提供了重要的资源支持,推动了更公平的语言技术的发展。
当前挑战
mGeNTE数据集面临的挑战主要体现在两个方面。首先,在解决领域问题时,性别中立翻译(GNT)的复杂性在于如何在目标语言中避免不必要的性别二元假设,特别是在语法性别语言中,性别标记的广泛存在使得中立化策略需要复杂的语言重构。其次,在数据集的构建过程中,研究人员面临的主要挑战包括如何确保数据的高质量和一致性,特别是在多语言环境下,不同语言的性别标记和表达方式差异较大,导致中立化策略的多样性和复杂性。此外,数据集的扩展和标注过程需要大量的语言学专家参与,以确保每个语言对的中立化策略符合语言习惯且不损害句子的流畅性和自然性。这些挑战使得mGeNTE的构建过程既复杂又耗时,但也为未来的性别中立语言研究提供了坚实的基础。
常用场景
经典使用场景
mGeNTE数据集在自然语言处理领域中被广泛用于性别中立翻译(GNT)的研究。该数据集通过提供英语与意大利语、德语、西班牙语之间的平行语料,支持对多语言环境下性别中立翻译的自动生成和评估。研究者可以利用该数据集训练和测试机器翻译模型,以确保翻译结果在性别表达上的中立性和包容性。特别是在处理性别模糊的输入时,mGeNTE为模型提供了明确的性别中立参考,帮助避免翻译中的性别偏见。
实际应用
mGeNTE数据集的实际应用场景主要集中在多语言翻译系统的开发与优化中。例如,在国际组织、教育机构以及多语言内容平台中,性别中立的翻译需求日益增加。通过使用mGeNTE,开发者可以训练出能够自动生成性别中立翻译的机器翻译系统,确保在跨语言沟通中避免性别歧视。此外,该数据集还可用于开发性别中立的语言生成工具,帮助内容创作者在撰写多语言文本时遵循性别包容性原则。
衍生相关工作
mGeNTE数据集的发布推动了多项相关研究的发展。例如,基于mGeNTE的研究工作探索了如何在多语言环境下实现性别中立的语言生成和翻译。一些研究利用该数据集开发了新的性别中立翻译模型,并通过实验验证了其在不同语言对中的有效性。此外,mGeNTE还启发了其他类似数据集的构建,如针对英语-冰岛语的GenderQueer测试集和针对英语-意大利语的Neo-GATE数据集。这些工作进一步扩展了性别中立语言研究的范围,并为未来的多语言公平语言技术研究奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作