five

GG-BBQ

收藏
arXiv2025-07-22 更新2025-07-24 收录
下载链接:
https://github.com/shalakasatheesh/GG-BBQ/
下载链接
链接失效反馈
官方服务:
资源简介:
GG-BBQ数据集是由Fraunhofer IAIS、Lamarr Institute和德国应用科学大学的研究团队创建的,用于评估德语大型语言模型(LLM)中的性别偏见。该数据集由两个子集组成:Subset-I包含与性别认同相关的群体术语,Subset-II则用德国的常见名字替换了群体术语。数据集总共包含4952个样本,用于评估LLM在回答问题时的准确性和偏见程度。该数据集旨在为研究德语环境中LLM的性别偏见提供资源。

The GG-BBQ dataset was created by research teams from Fraunhofer IAIS, the Lamarr Institute, and the University of Applied Sciences in Germany, and it is used to evaluate gender bias in German large language models (LLMs). This dataset consists of two subsets: Subset-I contains group terms related to gender identity, while Subset-II replaces these group terms with common German given names. In total, the dataset contains 4,952 samples, which are employed to assess the accuracy and bias degree of LLMs when answering questions. This dataset aims to provide a resource for researching gender bias of LLMs in the German context.
提供机构:
Fraunhofer IAIS, Lamarr Institute for Machine Learning and Artificial Intelligence, Bonn-Rhein-Sieg University of Applied Sciences
创建时间:
2025-07-22
搜集汇总
数据集介绍
main_image_url
构建方式
GG-BBQ数据集的构建基于对英语BBQ数据集的性别身份子集进行系统翻译。首先采用开源模型facebook/nllb-200-3.3进行机器翻译,随后由语言专家进行人工审核和修正。这一过程特别关注德语语法性别带来的挑战,如集体名词的性别中性表达和形容词词尾变化。最终数据集包含两个子集:Subset-I使用性别相关群体术语(如Mann/Frau),Subset-II则替换为德国常用人名(如Emma/Matteo)。每个模板生成4个问答样本,涵盖歧义和消歧两种语境。
特点
GG-BBQ作为德语性别偏见评估基准,其核心特征体现在三方面:语境设计上采用成对的歧义/消歧语境,有效检测模型对刻板印象的依赖程度;术语体系包含群体术语和专有名词双重维度,Subset-I含968个样本,Subset-II达4968个样本;文化适应性方面,通过人工修正解决了机器翻译在德语语法性别、职业称谓中性化等关键问题。该数据集特别关注德国文化语境中的性别表征,如教育体系术语的本土化替换,但保留了对非二元性别表述的探索空间。
使用方法
使用GG-BBQ评估模型时,需通过LM Evaluation Harness框架在零样本设置下进行多选问答测试。评估指标包含准确率(Accamb/Accdisamb)和偏见分数(diff-bias),分别衡量模型在歧义语境中避免刻板印象的能力,以及在消歧语境中遵循事实的程度。典型参数设置为temperature=0.0,top_p=0.6,测试时应选择优化后的提示模板。对于德语大语言模型,需特别注意Subset-I和Subset-II表现差异——前者反映群体术语偏见,后者揭示姓名关联偏见,二者结合可全面评估模型性别偏见特征。
背景与挑战
背景概述
GG-BBQ数据集是专为评估德语大型语言模型(LLMs)中的性别偏见而设计的基准数据集,由Fraunhofer智能分析与信息系统研究所及Lamarr机器学习与人工智能研究所的研究团队于2025年创建。该数据集基于英语的Bias Benchmark for Question Answering (BBQ)数据集,通过机器翻译和人工校对的方式转化为德语,旨在解决德语语境下语言模型中的性别偏见问题。其核心研究问题聚焦于模型预测中的性别刻板印象行为,填补了德语文化背景下相关研究资源的空白。GG-BBQ包含两个子集:Subset-I使用性别相关群体术语(如“男人/女人”),Subset-II则采用专有名词(如“Emma/Matteo”),通过歧义和消歧上下文的设计,量化模型对性别社会偏见的依赖程度。该数据集为德语NLP领域的公平性评估提供了重要工具,尤其揭示了指令微调模型在偏见放大现象上的复杂性。
当前挑战
GG-BBQ面临的核心挑战体现在领域问题与构建过程两个维度。在领域层面,德语严格的语法性别体系导致机器翻译难以保持英语原版的性别中立性(如“secretary”被默认译为阴性形式“Sekretärin”),需人工重构问题以消除语言结构引入的偏差;同时,非二元性别术语的缺失(如德语缺乏通用中性代词)迫使研究者通过改写句子结构规避代词使用,可能削弱对多元性别偏见的检测能力。在构建层面,文化特异性概念(如美国“middle school”)的直译失效需本土化替代,但部分场景因缺乏等效表述导致德国文化特有偏见无法被捕捉;此外,集体名词的性别标记(如“Berichterstatter”隐含男性主导)需人工扩展为双形式(“Berichterstatter/-innen”),暴露了机器翻译在语法性别语言中的系统性缺陷。这些挑战凸显了跨文化偏见数据集建设中语言特性与社会语境深度适配的必要性。
常用场景
经典使用场景
GG-BBQ数据集在自然语言处理领域中被广泛用于评估德语大型语言模型(LLMs)中的性别偏见。该数据集通过提供包含模糊和明确上下文的问答样本,帮助研究者测量模型在回答问题时是否依赖性别刻板印象。经典使用场景包括在零样本设置下测试不同LLMs的准确性和偏见分数,从而揭示模型在性别身份维度上的潜在偏差。
实际应用
在实际应用中,GG-BBQ数据集被科技公司和研究机构用于审计德语语言模型的公平性,特别是在招聘、客服和教育等敏感领域。例如,企业可通过该数据集检测其部署的聊天机器人是否隐含性别刻板印象,从而避免在人力资源筛选过程中造成歧视性输出。教育机构则利用它来评估教学辅助工具的包容性。
衍生相关工作
该数据集衍生了一系列针对多语言和文化语境偏见评估的扩展研究,如韩语KoBBQ、中文CBBQ和巴斯克语BasqBBQ等基准。相关经典工作包括对指令微调模型偏见放大现象的分析(Itzhak et al., 2024),以及探讨语法性别语言中形容词词尾变化对偏见测量的影响(Zhou et al., 2019)。这些研究共同推动了跨语言公平性评估方法论的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作