MuST-SHE
收藏arXiv2020-06-10 更新2024-07-25 收录
下载链接:
https://www.fbk.eu/en/research-centers/
下载链接
链接失效反馈官方服务:
资源简介:
MuST-SHE数据集由特伦托大学创建,是一个多语种的自然语言处理基准数据集,专注于评估性别偏见。该数据集包含约2136个(音频, 转录, 翻译)三元组,适用于英语到意大利语和法语的翻译方向。每个三元组都经过精心标注,以反映不同类型的性别现象。数据集的创建过程涉及从原始数据中筛选和手动检查,确保数据的质量和性别现象的平衡分布。MuST-SHE数据集的应用领域主要集中在评估和改进机器翻译系统在处理性别相关内容时的性能,旨在解决性别偏见问题,提高翻译的准确性和公正性。
The MuST-SHE dataset, developed by the University of Trento, is a multilingual natural language processing (NLP) benchmark dataset dedicated to evaluating gender bias. It contains approximately 2,136 (audio, transcription, translation) triplets, supporting English-to-Italian and English-to-French translation tasks. Each triplet is meticulously annotated to capture a wide range of gender-related phenomena. The dataset construction process involves screening raw data and conducting manual inspections to ensure data quality and a balanced distribution of gender-related content. The primary applications of the MuST-SHE dataset focus on evaluating and enhancing the performance of machine translation systems when handling gender-related content, aiming to address gender bias issues and improve the accuracy and fairness of machine translation.
提供机构:
特伦托大学
创建时间:
2020-06-10
搜集汇总
数据集介绍

构建方式
MuST-SHE 的构建基于 MuST-C 多语种语音翻译语料库,该语料库源自 TED 演讲的高质量音频与双语文本。研究团队首先对 2,500 个随机样本进行跨语言定性分析,以捕捉性别相关语言现象。随后,通过正则表达式将性别一致规则转化为搜索模式,并辅以人工编制的 50 个法语和意大利语形容词列表,以及从美国劳工统计局获取的 1,000 余个英语职业名词,从 MuST-C 中提取包含性别中立项的句子对。提取后的候选数据经过人工筛选,去除噪声,确保每个样本至少包含一个性别现象,并实现类别、阴阳性形式及说话人性别的均衡分布。最终,每个音频片段与文本对齐,并由语言学家标注类别、性别标记词及说话人性别,同时为每个正确参考翻译生成一个仅性别标记词被替换的错误参考,以支持精细化评估。
特点
MuST-SHE 作为首个基于自然数据的性别偏见评估测试集,具有鲜明的独特性。它包含 2,136 个音频-文本-翻译三元组,覆盖英语-意大利语和英语-法语两种语言方向,由 273 位不同说话人录制,确保了说话人性别与性别现象的均衡分布。数据集将性别现象分为两类:第一类依赖音频信号中的说话人信息(如自指性表达),第二类依赖文本内容中的上下文线索(如代词或专有名词)。这种分类设计使得研究者能够精确区分音频信息与文本信息对性别翻译的影响。此外,每个样本均附带正确与错误两种参考翻译,后者仅将性别标记词替换为对立形式,从而为细粒度评估提供了独特工具,显著区别于传统人工测试集。
使用方法
MuST-SHE 的使用方法聚焦于评估语音翻译系统的性别翻译能力。研究者可将其作为测试基准,计算系统在正确与错误参考翻译上的 BLEU 分数差值,差值越大表明系统对性别标记的敏感性越高。同时,通过计算性别标记词的准确率,可进一步剖析系统在阴阳性形式及两类性别现象上的表现差异。数据集支持对比级联架构与端到端架构,后者能够利用音频信号中的说话人信息,在前者无法获取外部说话人标签时展现优势。评估时,建议结合 BLEU 与准确率两种指标,前者反映整体翻译质量,后者直接度量性别标记的正确性,从而全面揭示系统的性别偏见程度及其在不同语言现象上的强弱之处。
背景与挑战
背景概述
在自然语言处理领域,性别偏见已成为一个日益突出的跨学科议题,尤其在机器翻译任务中,从无语法性别的语言(如英语)向具有丰富形态性别标记的语言(如法语、意大利语)转换时,模型常因训练数据的固有不对称性而错误地赋予职业或指代以男性化形式。2020年,由意大利布鲁诺·凯斯勒基金会与特伦托大学的研究团队共同构建了MuST-SHE数据集,旨在首次系统性地评估语音翻译技术中的性别偏见问题。该数据集基于TED演讲的多语种语音翻译语料库MuST-C,涵盖英语-法语与英语-意大利语两个语言方向,包含约2000条音频-文本-翻译三元组,并针对说话者性别与指代实体性别进行了精细标注。MuST-SHE的发布为性别公平性研究提供了首个基于自然数据的语音翻译基准,推动了级联与端到端系统在性别翻译能力上的对比分析,对相关领域产生了深远影响。
当前挑战
MuST-SHE所应对的核心挑战在于语音翻译中性别歧义的消解:当源语言缺乏显式性别标记时,模型需从音频信号或上下文线索中推断目标语言的性别形态。具体而言,挑战包括:一是说话者依赖型性别现象的准确翻译,即仅凭音频特征(如音高)判断说话者自身性别,这对仅依赖文本的级联系统构成天然障碍;二是外部知识注入的局限性,尽管级联系统可通过预置性别标签提升性能,但该信息在实际场景中往往不可获取;三是构建过程中的数据平衡难题,需在自然语料中精心筛选并确保女性/男性说话者、阴性/阳性形态及两类性别现象(音频可解与文本可解)的均衡分布,同时避免人工标注噪声,最终通过双重校验与冲突剔除确保了数据集的高质量。
常用场景
经典使用场景
MuST-SHE数据集的核心应用场景在于评估和比较不同语音翻译系统在处理性别相关翻译任务时的表现。该数据集基于自然语言中的真实对话片段,精心挑选了涉及性别标记现象的句子,涵盖两类关键情境:一类是性别信息仅能从音频信号中获取(如说话者自我指代),另一类是性别线索蕴含于话语内容之中(如通过代词或专有名词指代他人)。研究者利用MuST-SHE对级联架构与端到端语音翻译系统进行对比实验,从而揭示不同技术在性别翻译上的优劣差异。
解决学术问题
该数据集系统性地解决了语音翻译领域中性别偏见评估缺乏标准化自然基准的问题。此前研究多依赖人工构造的挑战数据集或仅聚焦于文本机器翻译,难以真实反映语音翻译中性别处理的复杂性和实际表现。MuST-SHE通过提供多语言、自然分布的标注语料,使研究者能够精准衡量系统在性别标记词上的翻译准确率,并区分音频信息与文本线索对性别消歧的贡献。其提出的基于正确与错误参考集的BLEU及准确率对比方法,为评估性别偏见提供了更可靠的量化手段,推动了该领域从定性分析向精准评估的转变。
衍生相关工作
MuST-SHE的发布催生了多项关于语音翻译性别偏见的后续研究。其构建思路启发了其他语言方向(如英语-西班牙语)的扩展版本,并推动了针对端到端模型音频特征优化的探索,例如改进MFCC特征以提升性别识别能力。此外,基于该数据集提出的性别词交换评估方法被广泛应用于自然语言处理领域的公平性研究,包括文本机器翻译、对话系统等。后续工作还借鉴其分类体系,将性别现象细化为更多子类别,并结合对抗训练、数据增强等技术开发去偏模型,形成了从评估到缓解的完整研究链条。
以上内容由遇见数据集搜集并总结生成



