five

bbq

收藏
Hugging Face2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/HiTZ/bbq
下载链接
链接失效反馈
官方服务:
资源简介:
BBQ数据集是一个英文问答数据集,旨在通过问答任务评估语言模型在社会偏见方面的表现。该数据集包含针对多个人口统计维度设计的问题,用于测试社会偏见。每个问题有两种形式:一种信息不足,答案应为'未知';另一种提供了足够的信息来确定答案。数据集覆盖了9个人口统计类别,每个类别都有模糊和明确两种配置。数据集分为测试集和训练集,每个示例都包含详细的信息字段。

The BBQ Dataset is an English question-answering dataset intended to evaluate language models’ performance on social bias assessment via question-answering tasks. It encompasses questions designed for multiple demographic dimensions to test for societal biases. Each question has two formats: one with insufficient contextual information where the correct answer should be "unknown", and another that provides sufficient details to determine a definitive answer. The dataset covers 9 demographic categories, each with both ambiguous and explicit configurations. It is split into a training set and a test set, and each example includes detailed informational fields.
提供机构:
HiTZ zentroa
创建时间:
2025-05-30
原始信息汇总

BBQ数据集概述

数据集简介

  • 名称:Bias Benchmark for Question Answering (BBQ)
  • 用途:评估语言模型在英语问答任务中的社会偏见
  • 语言:英语
  • 许可证:MIT
  • 任务类型:问答、文本分类
  • 标签:偏见评估、英语、多项选择、人口统计偏见
  • 规模:10K<n<100K

数据集内容

  • 问题类型
    • 模糊问题(ambig):正确答案应为"未知"
    • 明确问题(disambig):提供足够上下文确定正确答案

人口统计类别

  1. 年龄(Age)
  2. 残疾状况(Disability_status)
  3. 性别认同(Gender_identity)
  4. 国籍(Nationality)
  5. 外貌(Physical_appearance)
  6. 种族/民族(Race_ethnicity)
  7. 宗教(Religion)
  8. 社会经济地位(SES)
  9. 性取向(Sexual_orientation)

数据结构

  • 配置:每个类别包含ambig和disambig两种配置
  • 数据分割
    • test:主评估数据
    • train:4-shot示例(宗教类别无train分割)

数据字段

  • example_id:唯一标识符
  • question_index:问题编号
  • question_polarity:问题极性(neg/nonneg)
  • context_condition:ambig/disambig
  • category:人口统计类别
  • answer_info:答案选项信息
  • additional_metadata:元数据
  • context:上下文段落
  • question:问题
  • ans0/ans1/ans2:三个答案选项
  • label:正确答案索引(0/1/2)

使用示例

python from datasets import load_dataset dataset = load_dataset("HiTZ/bbq", "Age_ambig") test_data = dataset["test"] train_data = dataset["train"] # 4-shot示例(如可用)

评估指标

  • 准确率:正确答案百分比
  • 偏见:刻板与非刻板群体间的表现差异

引用

bibtex @inproceedings{parrish-etal-2022-bbq, title = "{BBQ}: A hand-built bias benchmark for question answering", author = "Parrish, Alicia and Chen, Angelica and Nangia, Nikita and Padmakumar, Vishakh and Phang, Jason and Thompson, Jana and Htut, Phu Mon and Bowman, Samuel", booktitle = "Findings of the Association for Computational Linguistics: ACL 2022", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.findings-acl.165/", doi = "10.18653/v1/2022.findings-acl.165", pages = "2086--2105" }

许可证

  • MIT许可证

联系方式

  • HiTZ研究小组
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,偏见评估数据集的设计需要严谨的构建方法。BBQ数据集通过人工精心构建问题模板,覆盖年龄、残疾状况、性别认同等九个社会人口统计维度。每个维度包含歧义和非歧义两种语境条件,其中歧义问题设计为缺乏足够信息时应回答“未知”,非歧义问题则提供充分上下文以确定正确答案。数据收集过程采用标准化协议,确保问题具有明确的极性特征和答案选项的平衡性。
特点
作为社会偏见评估的重要工具,该数据集具有多维度的评估框架。其核心特征体现在覆盖九大社会类别的高度系统性,每个类别下均包含互补的歧义与非歧义问题对。数据结构设计精密,包含问题极性、语境条件等元数据字段,能够精确追踪模型在不同情境下的表现差异。特别值得注意的是,数据集通过答案选项的群体标注机制,为量化分析模型偏见提供了细粒度支持。
使用方法
对于研究者而言,该数据集可通过HuggingFace平台便捷加载。使用时可选择特定人口统计维度的配置参数,如加载年龄相关的歧义问题配置。数据集提供测试集和少量训练样本,支持标准准确率与偏见度量双重评估指标。典型应用流程包括加载指定配置、解析问题上下文、分析模型答案选择模式,最终通过对比歧义与非歧义情境下的表现差异完成偏见评估。
背景与挑战
背景概述
自然语言处理领域对模型社会偏见的评估需求日益凸显,BBQ数据集应运而生。该数据集由Alicia Parrish等研究人员于2022年构建,旨在通过问答任务系统评估语言模型在年龄、性别认同、种族等九类人口统计维度上的社会偏见。作为ACL会议收录的基准数据集,其创新性地采用模糊与消歧双情境设计,为衡量模型在信息不足时的偏见表现提供了标准化框架,推动了可解释人工智能研究的发展。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需精准捕捉隐晦的社会偏见现象,避免因问题设计不当导致评估偏差;在技术实现层面,既要保证九类人口统计维度间平衡性,又需通过人工标注确保模糊情境中‘未知答案’标签的可靠性。特别是宗教等敏感类别的数据采集,需在文化差异与伦理约束间取得平衡,这对标注一致性和跨文化有效性提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域的社会偏见评估研究中,BBQ数据集被广泛应用于测试问答模型对多元人口统计特征的偏见倾向。该数据集通过精心设计的模糊与消歧两种语境条件,系统性地检测模型在年龄、性别认同、种族等九个维度上的刻板印象响应模式,为量化分析语言模型的社会偏见提供了标准化评估框架。
衍生相关工作
基于BBQ数据集衍生的经典研究包括多模态偏见的跨领域检测框架BiasBench,以及结合因果推理的偏见溯源方法CausalBias。这些工作扩展了原始数据集的评估维度,开发出能够同时检测显性与隐性偏见的新型模型,并建立了偏见传播路径的可解释性分析体系。
数据集最近研究
最新研究方向
在自然语言处理领域的社会偏见评估研究中,BBQ数据集已成为衡量语言模型公平性的重要基准。该数据集通过涵盖年龄、性别认同、种族等九大社会维度的歧义与非歧义问题设计,为检测模型隐性偏见提供了结构化框架。当前研究聚焦于大语言模型在多轮对话中的偏见传递机制,结合可解释人工智能技术追溯偏见源头。随着全球对算法公平性立法的推进,BBQ的评估范式正被拓展至多模态场景,其构建的偏见分类体系为开发去偏见算法提供了理论支撑,推动了负责任人工智能的发展进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作