GG-BBQ

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/shalakasatheesh/GG-BBQ

下载链接

链接失效反馈

官方服务：

资源简介：

GG-BBQ是一个德语性别偏见基准数据集，用于评估支持德语的语言模型中的性别偏见。数据集包含两个子集，每个子集都有模糊上下文和消歧上下文的分割。数据集的样本结构包括问题、上下文、正确答案和三个选择答案。

创建时间：

2025-07-24

原始信息汇总

GG-BBQ 数据集概述

数据集基本信息

名称: German Gender Bias Benchmark for Question Answering (GG-BBQ)
用途: 评估支持德语的模型中的性别偏见
语言: 德语
许可证: cc-by-4.0
规模: 1K<n<10K

数据集结构

子集:
1. Subset-I:
  - Split 1: Ambiguous Contexts
  - Split 2: Disambiguated Contexts
2. Subset-II:
  - Split 1: Ambiguous Contexts
  - Split 2: Disambiguated Contexts
数据样本结构:
- question: 揭示特定社会性别偏见的问题
- context: 回答问题所需的上下文
- label: 问题的正确答案
- choice_0: 第一个答案选项
- choice_1: 第二个答案选项
- choice_2: 第三个答案选项

数据集来源与创建

基础数据集: 基于 Parrish et al. (2022) 发布的原始 BBQ 数据集
创建过程:
- 将英语 BBQ 数据集中的性别身份子集模板机器翻译为德语
- 通过语言专家手动审查和纠正机器翻译中的错误

使用建议

适用范围: 评估语言模型中的性别偏见
不适用范围:
- 不应用于模型的进一步训练
- 不应用作德国文化中所有性别偏见的全面代表
- 不应用于传播已识别的性别偏见

注意事项

局限性:
- 可能未完全捕捉德国与美国文化背景的差异
- 可能存在单一语言专家引入的注释偏见
- 未解决德国文化中种族与性别交叉的偏见问题

引用信息

论文: GG-BBQ: German Gender Bias Benchmark for Question Answering
GitHub 仓库: shalakasatheesh/GG-BBQ

术语解释

Ambiguous Context: 上下文信息不足，无法回答问题
Disambiguated Context: 上下文信息充足，可以回答问题

搜集汇总

数据集介绍

构建方式

GG-BBQ数据集的构建基于Parrish等人（2022）发布的原始BBQ数据集，通过机器翻译将英语BBQ数据集中性别身份子集的模板转化为德语。为确保翻译质量，研究团队邀请了语言专家对机器翻译结果进行人工审核与修正。数据集包含两个子集，每个子集又分为模糊语境和消歧语境两种分割，旨在全面评估德语语言模型中的性别偏见问题。具体构建流程和标注细节可参考相关论文第四章的详细说明。

使用方法

该数据集专用于评估支持德语的语言模型中的性别偏见程度，使用者可通过分析模型在模糊语境与消歧语境下的回答差异，量化其性别偏见倾向。使用时应严格遵循研究伦理，禁止用于模型训练或偏见传播。建议结合GitHub仓库提供的技术文档和arXiv论文中的方法论，采用控制变量法对比模型在不同语境下的表现差异。需要注意的是，由于文化背景差异和单专家标注限制，使用结论需谨慎验证。

背景与挑战

背景概述

GG-BBQ（German Gender Bias Benchmark for Question Answering）是2025年由Shalaka Satheesh等人提出的德语性别偏见评测基准，旨在评估支持德语的大语言模型中的性别偏见问题。该数据集基于Parrish等人（2022）发布的英文BBQ数据集，通过机器翻译和人工校对将其适配至德语语境。作为首个针对德语设计的性别偏见评测工具，GG-BBQ填补了非英语语言模型伦理评估的空白，为德语自然语言处理系统的公平性研究提供了重要基础设施。数据集包含歧义语境和消歧语境两个子集，通过多选题形式系统检测模型在职业、社会角色等维度潜在的性别刻板印象。

当前挑战

GG-BBQ面临的核心挑战体现在评测维度和构建过程两个层面。在领域问题方面，德语复杂的语法性别体系（如阳性/阴性/中性词形变化）较英语更易诱发模型偏见，但现有评估框架难以捕捉语法性别与社会性别的交互影响；同时，德国特有的文化语境（如职业性别分化模式）要求偏见检测必须超越简单的词汇映射。在构建过程中，机器翻译导致的语义损耗需人工逐条校正，而单一语言专家的标注可能引入主观偏差；此外，数据集尚未涵盖种族、阶级等交叉性偏见维度，限制了其在多元文化场景下的适用性。

常用场景

经典使用场景

在自然语言处理领域，GG-BBQ数据集被广泛用于评估支持德语的预训练语言模型中的性别偏见问题。该数据集通过精心设计的歧义和非歧义上下文，结合多项选择题的形式，系统地检测模型在回答涉及性别刻板印象问题时表现出的偏见倾向。研究人员利用这一数据集可以深入分析模型在不同语境下对性别相关问题的响应模式。

解决学术问题

GG-BBQ数据集有效解决了德语自然语言处理中性别偏见量化评估的难题。该数据集填补了德语环境下系统性评估语言模型性别偏见的空白，为研究人员提供了标准化的测试基准。通过对比模型在歧义和非歧义语境下的表现差异，可以深入理解模型内部隐含的偏见机制，推动建立更公平的语言模型评估体系。

实际应用

在实际应用中，GG-BBQ数据集被多家科技公司用于检测其德语语言服务的公平性。该数据集帮助开发者在产品部署前识别和缓解潜在的性别偏见问题，特别是在智能客服、内容推荐等关键应用场景中。政府部门和学术机构也利用该数据集监测德语网络环境中语言技术的伦理合规性。

数据集最近研究