HiTZ/winomteus
收藏Hugging Face2026-05-08 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/winomteus
下载链接
链接失效反馈官方服务:
资源简介:
WinoMTeus是巴斯克语版本的WinoMT数据集,包含1,827个句子,每个句子包含一个或两个职业名称。该数据集的目的是评估将巴斯克语中的性别中性职业翻译成有性别语言(如西班牙语或法语)时如何分配性别。该数据集可用于分析翻译是否强化性别刻板印象或反映巴斯克地区的实际劳动力分布。
WinoMTeus is the Basque version of WinoMT that consists of 1,827 sentences, each containing one or two occupations. The aim of this adaptation is to evaluate how gender is assigned when translating gender-neutral occupations in Basque into gendered languages such as Spanish or French. This dataset can be used to analyse whether translation from Basque into a gendered language reinforces gender stereotypes or reflects the actual labour distribution in the Basque Country.
提供机构:
HiTZ
搜集汇总
数据集介绍

构建方式
WinoMTeus是WinoMT基准在巴斯克语上的适配版本,旨在评估从无性语言巴斯克语向西班牙语或法语等有性语言翻译时,性别中立的职业词汇如何被赋予性别属性。数据集包含1,827个句子,每个句子中包含一个或两个职业名称,这些职业在巴斯克语中不标记性别。构建过程严格遵循原始WinoMT的结构,同时根据巴斯克语的语法特点和文化背景进行调整,确保职业词汇的性别中立性得到保留,并为后续性别偏见分析提供可控的测试环境。
使用方法
使用WinoMTeus进行性别偏见评估时,首先需将数据集自动翻译为目标有性语言(如西班牙语或法语)。接着,从翻译结果中提取所有职业词汇的提及,并标注其默认的性别形态(阳性或阴性)。最后,将翻译后职业的性别分布与巴斯克地区真实劳动统计数据进行对比,从而判断模型是否强化了性别刻板印象或反映了实际劳动分工。该流程支持对多种机器翻译系统和大型语言模型进行系统性评估。
背景与挑战
背景概述
WinoMTeus由Amaia Murillo、Olatz Perez-de-Viñaspre和Naiara Perez于2026年创建,是巴斯克地区HiTZ人工智能与语言技术主席及多个研究项目支持下的成果。该数据集聚焦于机器翻译中的性别偏见评估,核心问题在于探究当从巴斯克语(一种无语法性别的语言)翻译至西班牙语、法语等有性别的语言时,中性职业词汇如何被赋予性别。作为WinoMT基准的巴斯克语版本,WinoMTeus包含1,827条含有职业名词的句子,旨在揭示翻译过程是否强化了性别刻板印象或反映了真实的劳动分布。其影响力在于为低资源语言和性别中立语言提供了首个性别偏见评估资源,推动了多语言公平性研究。
当前挑战
该数据集面临的领域挑战在于机器翻译系统在处理性别中立语言时,往往系统性地偏好阳性形式,导致翻译结果与真实劳动市场分布不符,加剧了性别刻板印象。构建过程中的挑战包括:从巴斯克语这一低资源语言出发,手动整理并验证大量中性职业句子的准确性;确保句子涵盖多样化的职业语境以全面评估偏见;以及设计合理的评估流程,将翻译结果中的性别分布与巴斯克地区实际就业统计数据进行对比,从而量化偏差程度。这些努力克服了语言差异和资源限制,为后续研究提供了可靠基准。
常用场景
经典使用场景
WinoMTeus数据集的核心用途在于评估从巴斯克语(一种无语法性别语言)向西班牙语或法语等有性别语言进行机器翻译时,中性职业词汇的性别分配状况。研究者通过自动翻译数据集中的1827条包含职业的句子,提取翻译结果中的职业提及并标注其性别,随后将所得性别分布与真实世界的劳动力统计数据相比较,从而量化翻译系统在多大程度上强化了性别刻板印象或反映了实际就业情况。
解决学术问题
该数据集针对性地解决了无性别语言与有性别语言之间翻译中的性别偏见评估这一学术难题。此前,大多数性别偏见评估资源以英语为中心,忽视了低资源语言(如巴斯克语)的独特性。WinoMTeus填补了这一空白,使研究者能够系统性地检验翻译模型是否在职业表述上倾向于默认使用男性形式,从而揭示了机器翻译系统在跨语言转换中潜藏的性别偏见机制,推动了计算语言学与性别研究交叉领域的深入发展。
实际应用
在实际应用中,WinoMTeus可作为翻译质量评估工具,帮助开发者和语言服务商检测和修正机器翻译系统(如GPT系列模型、商业翻译引擎)输出的性别偏见。通过将其纳入模型开发和测试流程,能够促进生成内容在性别表达上的公平性。此外,该数据集还可应用于教育领域,辅助设计更加包容的语言教学材料,以及在人工智能伦理审查中作为衡量算法公平性的标准测试集。
数据集最近研究
最新研究方向
当前研究聚焦于评估机器翻译系统在从巴斯克语(一种无语法性别语言)译向西班牙语或法语等有性别的语言时,对性别中立职业词条的性别指派是否固化了刻板印象,抑或反映了真实劳动分布。WinoMTeus数据集通过1,827条测试句,结合真实劳动统计数据进行对比分析,揭示了主流大语言模型及翻译系统在性别分配上仍系统性地偏向阳性形态,且部分模型对阳性指代词的处理质量略高。这一前沿探索不仅填补了低资源语言性别偏见评估的空白,更推动了跨语言文化语境下公平性评测基准的构建,具有重要的社会与技术双重影响。
以上内容由遇见数据集搜集并总结生成



