bbq

Name: bbq
Creator: HiTZ zentroa
Published: 2025-05-30 19:28:13
License: 暂无描述

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/HiTZ/bbq

下载链接

链接失效反馈

官方服务：

资源简介：

BBQ数据集是一个英文问答数据集，旨在通过问答任务评估语言模型在社会偏见方面的表现。该数据集包含针对多个人口统计维度设计的问题，用于测试社会偏见。每个问题有两种形式：一种信息不足，答案应为'未知'；另一种提供了足够的信息来确定答案。数据集覆盖了9个人口统计类别，每个类别都有模糊和明确两种配置。数据集分为测试集和训练集，每个示例都包含详细的信息字段。

The BBQ Dataset is an English question-answering dataset intended to evaluate language models’ performance on social bias assessment via question-answering tasks. It encompasses questions designed for multiple demographic dimensions to test for societal biases. Each question has two formats: one with insufficient contextual information where the correct answer should be "unknown", and another that provides sufficient details to determine a definitive answer. The dataset covers 9 demographic categories, each with both ambiguous and explicit configurations. It is split into a training set and a test set, and each example includes detailed informational fields.

提供机构：

HiTZ zentroa

创建时间：

2025-05-30

原始信息汇总

BBQ数据集概述

数据集简介

名称：Bias Benchmark for Question Answering (BBQ)
用途：评估语言模型在英语问答任务中的社会偏见
语言：英语
许可证：MIT
任务类型：问答、文本分类
标签：偏见评估、英语、多项选择、人口统计偏见
规模：10K<n<100K

数据集内容

问题类型：
- 模糊问题(ambig)：正确答案应为"未知"
- 明确问题(disambig)：提供足够上下文确定正确答案

人口统计类别

年龄(Age)
残疾状况(Disability_status)
性别认同(Gender_identity)
国籍(Nationality)
外貌(Physical_appearance)
种族/民族(Race_ethnicity)
宗教(Religion)
社会经济地位(SES)
性取向(Sexual_orientation)

数据结构

配置：每个类别包含ambig和disambig两种配置
数据分割：
- test：主评估数据
- train：4-shot示例(宗教类别无train分割)

数据字段

example_id：唯一标识符
question_index：问题编号
question_polarity：问题极性(neg/nonneg)
context_condition：ambig/disambig
category：人口统计类别
answer_info：答案选项信息
additional_metadata：元数据
context：上下文段落
question：问题
ans0/ans1/ans2：三个答案选项
label：正确答案索引(0/1/2)

使用示例

python from datasets import load_dataset dataset = load_dataset("HiTZ/bbq", "Age_ambig") test_data = dataset["test"] train_data = dataset["train"] # 4-shot示例(如可用)

评估指标

准确率：正确答案百分比
偏见：刻板与非刻板群体间的表现差异

引用

bibtex @inproceedings{parrish-etal-2022-bbq, title = "{BBQ}: A hand-built bias benchmark for question answering", author = "Parrish, Alicia and Chen, Angelica and Nangia, Nikita and Padmakumar, Vishakh and Phang, Jason and Thompson, Jana and Htut, Phu Mon and Bowman, Samuel", booktitle = "Findings of the Association for Computational Linguistics: ACL 2022", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.findings-acl.165/", doi = "10.18653/v1/2022.findings-acl.165", pages = "2086--2105" }

许可证

MIT许可证

联系方式

HiTZ研究小组

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，偏见评估数据集的设计需要严谨的构建方法。BBQ数据集通过人工精心构建问题模板，覆盖年龄、残疾状况、性别认同等九个社会人口统计维度。每个维度包含歧义和非歧义两种语境条件，其中歧义问题设计为缺乏足够信息时应回答“未知”，非歧义问题则提供充分上下文以确定正确答案。数据收集过程采用标准化协议，确保问题具有明确的极性特征和答案选项的平衡性。

特点

作为社会偏见评估的重要工具，该数据集具有多维度的评估框架。其核心特征体现在覆盖九大社会类别的高度系统性，每个类别下均包含互补的歧义与非歧义问题对。数据结构设计精密，包含问题极性、语境条件等元数据字段，能够精确追踪模型在不同情境下的表现差异。特别值得注意的是，数据集通过答案选项的群体标注机制，为量化分析模型偏见提供了细粒度支持。

使用方法

对于研究者而言，该数据集可通过HuggingFace平台便捷加载。使用时可选择特定人口统计维度的配置参数，如加载年龄相关的歧义问题配置。数据集提供测试集和少量训练样本，支持标准准确率与偏见度量双重评估指标。典型应用流程包括加载指定配置、解析问题上下文、分析模型答案选择模式，最终通过对比歧义与非歧义情境下的表现差异完成偏见评估。

背景与挑战

背景概述

自然语言处理领域对模型社会偏见的评估需求日益凸显，BBQ数据集应运而生。该数据集由Alicia Parrish等研究人员于2022年构建，旨在通过问答任务系统评估语言模型在年龄、性别认同、种族等九类人口统计维度上的社会偏见。作为ACL会议收录的基准数据集，其创新性地采用模糊与消歧双情境设计，为衡量模型在信息不足时的偏见表现提供了标准化框架，推动了可解释人工智能研究的发展。

当前挑战

数据集构建面临双重挑战：在领域问题层面，需精准捕捉隐晦的社会偏见现象，避免因问题设计不当导致评估偏差；在技术实现层面，既要保证九类人口统计维度间平衡性，又需通过人工标注确保模糊情境中‘未知答案’标签的可靠性。特别是宗教等敏感类别的数据采集，需在文化差异与伦理约束间取得平衡，这对标注一致性和跨文化有效性提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域的社会偏见评估研究中，BBQ数据集被广泛应用于测试问答模型对多元人口统计特征的偏见倾向。该数据集通过精心设计的模糊与消歧两种语境条件，系统性地检测模型在年龄、性别认同、种族等九个维度上的刻板印象响应模式，为量化分析语言模型的社会偏见提供了标准化评估框架。

衍生相关工作

基于BBQ数据集衍生的经典研究包括多模态偏见的跨领域检测框架BiasBench，以及结合因果推理的偏见溯源方法CausalBias。这些工作扩展了原始数据集的评估维度，开发出能够同时检测显性与隐性偏见的新型模型，并建立了偏见传播路径的可解释性分析体系。

数据集最近研究

最新研究方向

在自然语言处理领域的社会偏见评估研究中，BBQ数据集已成为衡量语言模型公平性的重要基准。该数据集通过涵盖年龄、性别认同、种族等九大社会维度的歧义与非歧义问题设计，为检测模型隐性偏见提供了结构化框架。当前研究聚焦于大语言模型在多轮对话中的偏见传递机制，结合可解释人工智能技术追溯偏见源头。随着全球对算法公平性立法的推进，BBQ的评估范式正被拓展至多模态场景，其构建的偏见分类体系为开发去偏见算法提供了理论支撑，推动了负责任人工智能的发展进程。

以上内容由遇见数据集搜集并总结生成

BBQ

该数据集名为BBQ，被广泛应用于量化语言模型中的外在偏见。每个数据点包含一个上下文、一个指向该上下文的问题以及一个依赖于上下文和问题的答案。该数据集涵盖了不同偏见类别的示例，并且在不同偏见类别（'biased'和'not biased'）之间保持了平衡，这有助于评估语言模型中的偏见缓解策略。该数据集共包含58,492个示例，其任务是识别语言模型中的偏见。

arXiv50

bbq

BBQ仓库专注于提供用于评估问答系统中社会偏见的基准数据集。该数据集由作者构建的问题集组成，突出了针对属于受保护群体的社会偏见，涵盖了与美国英语环境相关的九个社会维度。BBQ在两种情况下评估模型响应：在信息不足的上下文中，测试响应反映社会偏见的程度；在信息充分的上下文中，测试模型的偏见是否会覆盖正确的答案选择。该数据集以JSONL格式存储，并提供All、Age、Disability_status、

OpenCSG2025-06-25 更新60

heegyu/bbq

BBQ（Bias Benchmark for QA）是一个用于评估问答模型中社会偏见的数据集。该数据集由作者构建，包含了针对美国英语语境中九个社会维度的偏见问题集。数据集的任务是评估模型在两个层次上的响应：一是在信息不足的上下文中测试模型是否反映社会偏见，二是在信息充分的上下文中测试模型的偏见是否覆盖了正确答案。研究发现，模型在信息不足的上下文中往往依赖刻板印象，而在信息充分的上下文中，尽管模型更

Hugging Face2023-07-14 更新2200

BBQ

该数据集包含多个特征，如问题索引、问题极性、上下文条件等，用于描述数据集中的每个样本。数据集被分为多个部分，包括种族、国籍、年龄、性别和训练集，每个部分都有相应的字节数和样本数。数据集的总下载大小为62835字节，总数据集大小为61674字节。配置文件中指定了每个部分的数据文件路径。

Hugging Face2025-01-20 更新2110

bbq

Opencsg2025-06-30 更新120