five

FBK-MT/GeNTE

收藏
Hugging Face2025-01-20 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/FBK-MT/GeNTE
下载链接
链接失效反馈
官方服务:
资源简介:
GeNTE(性别中立翻译评估)是一个自然双语语料库,旨在评估机器翻译系统生成性别中立翻译的能力。该数据集基于欧洲议会演讲的Europarl语料库,包含1500个平行句子,并进行了人工注释。数据集分为两个子集:Set-N(需要性别中立翻译的句子)和Set-G(需要性别化翻译的句子)。数据集支持跨语言(英语-意大利语)和语内(意大利语-意大利语)的性别包容翻译任务。

GeNTE(性别中立翻译评估)是一个自然双语语料库,旨在评估机器翻译系统生成性别中立翻译的能力。该数据集基于欧洲议会演讲的Europarl语料库,包含1500个平行句子,并进行了人工注释。数据集分为两个子集:Set-N(需要性别中立翻译的句子)和Set-G(需要性别化翻译的句子)。数据集支持跨语言(英语-意大利语)和语内(意大利语-意大利语)的性别包容翻译任务。
提供机构:
FBK-MT
原始信息汇总

数据集概述

名称: GeNTE: Gender-Neutral Translation Evaluation

描述: GeNTE是一个双语自然语言数据集,旨在评估机器翻译系统生成性别中性翻译的能力。该数据集基于欧洲议会的演讲,包含1500个平行句,分为性别中性翻译(set-N)和目标语言中性别化翻译(set-G)两部分。

数据集结构

配置类型:

  • main: 包含完整的GeNTE语料库及其设置注释。
  • common: 包含GeNTE语料库的子集,提供3种性别中性参考翻译。

数据文件:

  • GeNTE.tsv: 包含8个字段,如ID、Europarl_ID、SET、SRC、REF-G、REF-N、COMMON、GENDER。
  • GeNTE_common.tsv: 包含9个字段,如ID、Europarl_ID、SET、SRC、REF-G、REF-N1、REF-N2、REF-N3、GENDER。

数据集内容

语言: 英语(en)和意大利语(it)

许可证: CC-BY-4.0

任务类别: 翻译、文本生成

标签: 性别、偏见、包容性、重写、翻译、机器翻译

数据集创建

源数据: 从Europarl语料库(common test set 2)提取和编辑的文本数据。

注释: 每个句子对包含一个额外的意大利语参考,使用中性表达方式指代人类实体。

数据集策划者:

  • Beatrice Savoldi (FBK): bsavoldi@fbk.eu
  • Luisa Bentivogli (FBK): bentivo@fbk.eu
  • Andrea Piergentili (FBK): apiergentili@fbk.eu

引用信息

bibtex @inproceedings{piergentili-etal-2023-hi, title = "Hi Guys or Hi Folks? Benchmarking Gender-Neutral Machine Translation with the {G}e{NTE} Corpus", author = "Piergentili, Andrea and Savoldi, Beatrice and Fucci, Dennis and Negri, Matteo and Bentivogli, Luisa", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.873", doi = "10.18653/v1/2023.emnlp-main.873", pages = "14124--14140" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作