FBK-MT/GeNTE
收藏数据集概述
名称: GeNTE: Gender-Neutral Translation Evaluation
描述: GeNTE是一个双语自然语言数据集,旨在评估机器翻译系统生成性别中性翻译的能力。该数据集基于欧洲议会的演讲,包含1500个平行句,分为性别中性翻译(set-N)和目标语言中性别化翻译(set-G)两部分。
数据集结构
配置类型:
main: 包含完整的GeNTE语料库及其设置注释。common: 包含GeNTE语料库的子集,提供3种性别中性参考翻译。
数据文件:
GeNTE.tsv: 包含8个字段,如ID、Europarl_ID、SET、SRC、REF-G、REF-N、COMMON、GENDER。GeNTE_common.tsv: 包含9个字段,如ID、Europarl_ID、SET、SRC、REF-G、REF-N1、REF-N2、REF-N3、GENDER。
数据集内容
语言: 英语(en)和意大利语(it)
许可证: CC-BY-4.0
任务类别: 翻译、文本生成
标签: 性别、偏见、包容性、重写、翻译、机器翻译
数据集创建
源数据: 从Europarl语料库(common test set 2)提取和编辑的文本数据。
注释: 每个句子对包含一个额外的意大利语参考,使用中性表达方式指代人类实体。
数据集策划者:
- Beatrice Savoldi (FBK): bsavoldi@fbk.eu
- Luisa Bentivogli (FBK): bentivo@fbk.eu
- Andrea Piergentili (FBK): apiergentili@fbk.eu
引用信息
bibtex @inproceedings{piergentili-etal-2023-hi, title = "Hi Guys or Hi Folks? Benchmarking Gender-Neutral Machine Translation with the {G}e{NTE} Corpus", author = "Piergentili, Andrea and Savoldi, Beatrice and Fucci, Dennis and Negri, Matteo and Bentivogli, Luisa", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.873", doi = "10.18653/v1/2023.emnlp-main.873", pages = "14124--14140" }



