projecte-aina/MuST-SHE_en-ca
收藏数据集卡片:MuST-SHE_en-ca
数据集描述
数据集概述
MuST-SHE_en-ca 是一个用于评估加泰罗尼亚语自然语言处理任务的英语-加泰罗尼亚语评估数据集,包含 1.046 个示例,特别用于机器翻译中的性别偏差评估。该数据集源自 MuST-SHE 英语-西班牙语数据集,通过将西班牙语部分翻译成加泰罗尼亚语得到。
支持的任务和排行榜
该数据集设计用于评估从英语到加泰罗尼亚语的机器翻译中的性别偏差。由于该数据集基于自然语言,因此可以提供不同于流行模板型性别偏差评估集的不同见解。
语言
数据集包含的语言为英语 (EN) 和加泰罗尼亚语 (CA)。
数据集结构
数据实例
数据集由一个包含 1.046 行的 tsv 文件组成:
- MuST-SHE_en-ca.tsv
数据集遵循原始 MuST-SHE 数据集的结构,大部分数据字段未作任何更改。唯一更改的数据字段是与从西班牙语到加泰罗尼亚语的翻译相关的字段:
- LANG (es -> ca)
- REF (es -> ca)
- WRONG-REF (es -> ca)
- GENDERTERMS (es -> ca)
原始数据集包含数据字段 CATEGORY,根据性别信息的 presence 或 absence 将段落分为四个类别。然而,由于原始数据集设计用于评估语音数据,因此在文本基础的机器翻译任务中,包含性别信息的段落可以被视为不包含性别信息。因此,我们添加了额外的列 "TEXT-CATEGORY",专门用于文本基础的机器翻译任务。在 "TEXT-CATEGORY" 中,实例分为两个不同的类别:
- 文本包含足够信息以消除性别歧义的句子。
- 文本不包含足够信息以消除性别歧义的句子。
数据字段
数据字段遵循原始 MuST-SHE 数据集的结构:
- ID (段落标识符)
- LANG (语言)
- TALK (TED 演讲标识符)
- SRC (源句子)
- REF (正确的性别翻译)
- WRONG-REF (错误的性别翻译)
- SPEAKER (演讲者姓名)
- GENDER (演讲者性别)
- CATEGORY (性别信息状态)
- TEXT-CATEGORY (仅文本任务的性别信息状态)
- GENDERTERMS (从 REF 和 WRONG-REF 句子中提取的性别术语)
数据分割
数据集包含一个用于评估的单一分割。
数据集理由
该数据集旨在评估从英语到加泰罗尼亚语的机器翻译中的性别偏差,以促进在将性别中性语言(如英语)翻译成语法上性别化的语言(如加泰罗尼亚语)时产生更公平的机器翻译输出。
源数据
初始数据收集和规范化
MuST-SHE_en-ca 是通过使用 PlanTL Project 的西班牙语-加泰罗尼亚语机器翻译模型 自动翻译英语-西班牙语 MuST-SHE 的西班牙语部分创建的。性别术语是自动提取的,并且性别术语和自动翻译的句子都由一位母语为加泰罗尼亚语的人进行了广泛审查,以确保准确性。
源数据生产者
Fondazione Bruno Kessler 的机器翻译小组
注释
注释过程
对于每个段落,我们添加了一个额外的列 "TEXT-CATEGORY",专门用于文本基础的机器翻译任务。在 "TEXT-CATEGORY" 中,段落分为两个不同的类别:
- 文本包含足够信息以消除性别歧义的句子。
- 文本不包含足够信息以消除性别歧义的句子。
所有从西班牙语的翻译都是使用 PlanTL es->ca 模型 自动生成的,并由一位母语为加泰罗尼亚语的人手动校对。
注释者
注释由 BSC LangTech 合作者内部完成。
个人和敏感信息
未进行匿名化处理。
使用数据集的考虑
数据集的社会影响
该数据集的特定目的是帮助评估机器翻译引擎在将性别中性语言(如英语)翻译成语法上性别化的语言(如加泰罗尼亚语)时的性别偏差。这种评估可能有助于在从英语翻译到加泰罗尼亚语时促进更公平的机器翻译输出。从更广泛的角度来看,通过提供这一资源,我们旨在促进加泰罗尼亚语在自然语言处理任务中的使用,从而提高加泰罗尼亚语的可访问性和可见性。
偏差的讨论
该数据集专门设计用于评估机器翻译中的性别偏差。其他类型的偏差(如种族、民族、社会经济偏差等)可能存在于数据中。没有针对这些其他类型偏差的特定缓解策略应用于该数据集。
其他已知限制
数据集包含一般领域的数据。在更具体的领域(如生物医学、法律等)中应用该数据集将有限。
附加信息
数据集策展人
巴塞罗那超级计算中心的语言技术单元 (langtech@bsc.es)。
这项工作得到了加泰罗尼亚政府的推广和资助,通过 Aina 项目。
许可信息
该工作根据 Creative Commons Attribution-NonCommercial-NoDerivs 4.0 许可进行许可。
引用信息
@inproceedings{bentivogli-etal-2020-gender, title = "Gender in Danger? Evaluating Speech Translation Technology on the {M}u{ST}-{SHE} Corpus", author = "Bentivogli, Luisa and Savoldi, Beatrice and Negri, Matteo and Di Gangi, Mattia A. and Cattoni, Roldano and Turchi, Marco", editor = "Jurafsky, Dan and Chai, Joyce and Schluter, Natalie and Tetreault, Joel", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.acl-main.619", doi = "10.18653/v1/2020.acl-main.619", pages = "6923--6933", abstract = "Translating from languages without productive grammatical gender like English into gender-marked languages is a well-known difficulty for machines. This difficulty is also due to the fact that the training data on which models are built typically reflect the asymmetries of natural languages, gender bias included. Exclusively fed with textual data, machine translation is intrinsically constrained by the fact that the input sentence does not always contain clues about the gender identity of the referred human entities. But what happens with speech translation, where the input is an audio signal? Can audio provide additional information to reduce gender bias? We present the first thorough investigation of gender bias in speech translation, contributing with: i) the release of a benchmark useful for future studies, and ii) the comparison of different technologies (cascade and end-to-end) on two language directions (English-Italian/French).", }
@article{article, author = {Cattoni, Roldano and Di Gangi, Mattia and Bentivogli, Luisa and Negri, Matteo and Turchi, Marco}, year = {2021}, month = {03}, pages = {101155}, title = {MuST-C: A multilingual corpus for end-to-end speech translation}, volume = {66}, journal = {Computer Speech & Language}, doi = {10.1016/j.csl.2020.101155} }
贡献
[N/A]



