EuroGEST

Name: EuroGEST
Creator: 爱丁堡大学、华沙工业大学、Aveni
Published: 2025-06-04 19:58:18
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/JacquelineRowe/ EuroGEST

下载链接

链接失效反馈

官方服务：

资源简介：

EuroGEST是一个包含71000个句子的数据集，这些句子与16个性别刻板印象相关联，覆盖了30种欧洲语言。该数据集扩展了现有的专家信息基准，涵盖了16个性别刻板印象，并使用翻译工具、质量评估指标和形态学启发式方法进行了扩展。人工评估证实，我们的数据生成方法在翻译和性别标签的准确性方面取得了高精度。我们使用EuroGEST评估了来自六个模型家族的24个多语言语言模型，结果表明，所有模型中所有语言中最强烈的刻板印象是女性美丽、富有同情心、整洁，而男性则是领导者、坚强、坚韧和专业。我们还表明，更大的模型编码性别刻板印象更强烈，而指令微调并不能始终如一地减少性别刻板印象。

提供机构：

爱丁堡大学、华沙工业大学、Aveni

创建时间：

2025-06-04

搜集汇总

数据集介绍

构建方式

EuroGEST数据集的构建基于专家指导的性别刻板印象基准，通过机器翻译工具、质量评估指标和形态学启发式方法，将原始GEST数据集扩展到29种欧洲语言。具体步骤包括将英语句子嵌入性别化模板，使用Google Translate API进行翻译，并通过COMET质量评估工具筛选高质量翻译。最终，通过比较翻译后的句子对，区分出性别化和性别中立的句子，形成包含71,000个句子的数据集。

特点

EuroGEST数据集覆盖30种欧洲语言，包含16种性别刻板印象的句子对，共计71,000个句子。其特点在于通过自动化流程高效生成高质量的性别标注数据，并结合人类评估确保翻译和性别标签的准确性。数据集分为性别化（EuroGESTG）和性别中立（EuroGESTN）两部分，适用于多语言性别偏见研究。

使用方法

EuroGEST数据集可用于评估多语言大语言模型中的性别刻板印象。使用方法包括将性别化句子对输入模型，计算模型对刻板印象句子的偏好概率。通过比较模型对男性和女性刻板印象句子的生成概率，量化模型中的性别偏见。此外，数据集还可用于研究模型大小和指令微调对性别偏见的影响，为多语言公平性研究提供重要资源。

背景与挑战

背景概述

EuroGEST数据集由爱丁堡大学、华沙理工大学及Aveni机构的研究团队于2025年创建，旨在解决多语言大语言模型（LLMs）中的性别刻板印象问题。该数据集扩展了现有的GEST基准，覆盖了英语及29种欧洲语言，包含71,000个句子，涉及16种性别刻板印象。EuroGEST的构建结合了专家知识、机器翻译和质量评估指标，通过人类评估验证了翻译和性别标签的高准确性。该数据集为研究多语言模型中的性别偏见提供了重要资源，填补了非英语性别偏见评估的空白，推动了跨语言公平性研究的发展。

当前挑战

EuroGEST面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集旨在解决多语言模型中的性别刻板印象问题，但不同语言和文化中的性别表达方式差异巨大，如何准确捕捉和评估这些差异是一个复杂问题。构建过程中的挑战包括：1) 低资源语言的自动翻译质量不稳定，导致部分语言的句子数量较少；2) 性别标记的准确性依赖于语言特定的形态学启发式方法，这在形态复杂的语言中尤为困难；3) 需要设计跨语言的评估模板，但某些语言（如土耳其语）的语法结构与模板不兼容。此外，如何确保评估方法在不同语言间的可比性也是一个持续挑战。

常用场景

经典使用场景

EuroGEST数据集在自然语言处理领域被广泛用于评估多语言大语言模型中的性别刻板印象。该数据集通过覆盖30种欧洲语言的71,000个句子，研究者可以系统地测量模型在不同语言背景下对16种性别刻板印象的编码强度。例如，研究者使用该数据集发现，所有模型在所有语言中最强的刻板印象是女性美丽、富有同情心且整洁，而男性则是领导者、强壮、坚韧且专业。

解决学术问题

EuroGEST数据集解决了多语言大语言模型中性别偏见评估的空白问题。传统上，性别偏见研究主要集中在英语等高资源语言，而EuroGEST通过扩展至29种欧洲语言，提供了跨语言的系统性评估工具。该数据集不仅揭示了模型在不同语言中性别刻板印象的普遍性，还展示了模型规模与刻板印象编码强度之间的正相关关系，为后续的偏见缓解研究提供了重要基准。

衍生相关工作

EuroGEST数据集衍生了一系列相关研究，尤其是在多语言性别偏见评估和缓解领域。例如，基于EuroGEST的研究发现，指令微调并不能一致性地减少性别刻板印象，这引发了关于模型微调策略有效性的新讨论。此外，该数据集还启发了类似的多语言偏见评估工具的开发，如SHADES数据集，进一步扩展了性别偏见研究的语言和文化覆盖范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集