BBQ-Eval

Hugging Face2026-04-20 更新2026-04-21 收录

下载链接：

https://huggingface.co/datasets/amozo/BBQ-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

BBQ-Eval 是一个基于偏见基准问答数据集（BBQ）衍生的评估基准，旨在测试问答系统在九个社会类别中的社会偏见。该数据集保留了BBQ的核心属性，同时增加了模型生成的回答对和简洁/合理化变体，以进行更细致的偏见分析。数据集包含461个示例，均匀分布在9个社会类别（每个约50项），涵盖两种上下文条件（模糊264项，明确197项）和两种问题极性（负面229项，非负面232项）。每个示例包含详细的结构化字段，包括唯一标识符、问题上下文、模型提示文本、基于证据的正确回答、带有偏见的替代回答、偏见类别和子类型、上下文条件、问题极性以及回答类型（简洁型或合理化型）。该数据集特别设计了两种回答变体：简洁型（不含理由说明）和合理化型（包含解释文本），以研究不同形式的偏见表达。数据来源于BBQ原始数据集，经过人工筛选确保质量和对比效果。主要应用场景包括社会偏见研究、刻板印象追踪和基于证据的问答系统评估。需要注意的是，数据集包含敏感的社会刻板印象内容，仅适用于研究目的，不建议作为训练语料使用。数据集在类别层面保持平衡，但在其他维度的组合上存在自然变化。

创建时间：

2026-04-16

原始信息汇总

BBQ-Eval 数据集概述

数据集基本信息

数据集名称: BBQ-Eval
许可协议: cc-by-4.0
主要语言: 英语 (en)
数据集标签: Bias, llm-as-a-judge, evaluation, qa, benchmark, social-bias, nlp
数据规模: n<1K
总样本数: 461

数据集起源与构建

基础数据集: 基于偏见基准问答数据集 (Bias Benchmark for Question Answering, BBQ) 构建。
核心设计: 保留了BBQ的核心属性，旨在测试问答系统中的社会偏见，并增加了模型生成的回答对以及简洁/合理化变体，以进行更细致的偏见分析。
社会类别: 涵盖9个社会维度，每个类别约50个项目，包括年龄、残疾状况、性别认同、国籍、外貌、种族/民族、宗教、社会经济地位和性取向。
项目选择与生成: 从每个BBQ社会类别中随机抽取50个项目（共450个），使用Gemini 2.5 Pro为每个项目生成两种回答：基于证据的有效答案和符合目标偏见的刻板印象答案。
人工过滤: 生成的回答对经过人工审查，以确保清晰度、合理性和对证据与刻板印象动态的遵循。
变体创建: 通过去除合理化文本创建了一组补充的简洁回答，仅在移除能产生有意义对比时保留。

数据结构与字段

每个数据行对应一个评估项目，包含以下字段：

字段名	描述	示例
`id_question`	项目的唯一标识符	`"ea7a250b-9ba5-47ed-9194-51fc38e4459e"`
`id_parent`	将简洁回答与其合理化对应项链接	`"a024a349-30a4-4191-9fd0-192d87cb9389"`
`context`	问答的文本上下文	`"Responsibility was the topic..."`
`prompt_text`	向模型提出的问题	`"Who was irresponsible?"`
`response_gold`	基于证据的正确回答	`"Unknown."`
`response_mod`	刻板印象的替代回答	`"The high school freshman."`
`bias_category`	社会偏见维度	`"age"`
`bias_specification`	类别内的子类型	`"nonOld"`
`context_condition`	上下文条件：`ambig`（模糊）或 `disambig`（明确）	`"ambig"`
`question_polarity`	问题极性：`neg`（负面）或 `nonneg`（非负面）	`"neg"`
`answer_type`	回答类型：`concise`（简洁，无理由）或 `justified`（合理化，有解释）	`"concise"`

数据集统计

按类别统计

类别	总项目数
Age	49
Disability_status	52
Gender_identity	52
Nationality	56
Physical_appearance	52
Race_ethnicity	52
Religion	48
Ses	50
Sexual_orientation	50
总计	461

维度边际统计

维度	ambig	disambig	neg	nonneg	concise	justified
数量	264	197	229	232	223	238

详细细分统计

（详细统计表见原始README，此处省略以保持简洁。关键信息为：数据按类别、上下文条件、问题极性和回答类型四个维度进行了细分统计。）

预期用途与限制

预期用途: 用于社会偏见、刻板印象遵循和基于证据的问答研究。设计为评估基准，而非训练语料库。
内容警告: 数据集包含社会敏感内容，可能重现有害的刻板印象，旨在研究模型行为。
限制:
- 包含用于研究目的的敏感社会刻板印象。
- 未在所有四维组合（类别 × 上下文 × 极性 × 回答类型）上完美平衡，但在类别层面平衡良好。
- 人工过滤可能引入细微的选择偏差。

许可与归属

此数据集衍生自BBQ，使用时应对原始工作进行适当归属。
任何重用都应引用原始的BBQ基准和此衍生数据集。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型的社会偏见已成为一项关键任务。BBQ-Eval数据集的构建植根于偏见基准问答数据集，通过精心设计的流程衍生而来。其核心方法是从原始数据集的九个社会维度中，每个类别随机抽取50个项目，共计450个初始条目。随后，利用Gemini 2.5 Pro模型为每个项目生成一对对比鲜明的回答：一个基于上下文证据的有效答案，另一个则符合刻板印象的偏见答案。生成的内容经过人工筛选，确保清晰度与逻辑合理性，并进一步创建了简洁版本与论证版本，最终形成包含461个项目的平衡数据集。

特点

该数据集在结构设计上展现出多维度精细化的特征。它完整保留了年龄、残疾状况、性别认同等九个社会类别，每个类别均保持近似平衡的样本量。数据集巧妙区分了模糊与消歧两种上下文条件，以及负面与非负面两种问题极性，从而能够深入探测模型在不同信息明确度下的偏见倾向。尤为突出的是，每个项目都配备了证据答案与刻板印象答案的对比对，并同时提供简洁与论证两种回答形式，这种双重对比机制为偏见分析提供了更丰富的粒度。

使用方法

作为专门用于评估的基准，BBQ-Eval数据集为研究者提供了系统化检测问答模型社会偏见的工具。使用时，可将模型的预测输出与数据集中的`response_gold`（证据答案）和`response_mod`（刻板印象答案）进行对比分析。通过考察模型在模糊上下文下是否倾向于选择刻板印象答案，或在消歧上下文中能否遵循明确证据，可以量化其偏见程度。结合`bias_category`、`context_condition`等字段进行交叉分析，能够揭示模型在不同社会维度和语境条件下的具体偏差模式，为模型的公平性改进提供实证依据。

背景与挑战

背景概述

在自然语言处理领域，评估模型的社会偏见已成为一项至关重要的研究课题。BBQ-Eval数据集作为偏见基准问答（BBQ）的衍生评估基准，专注于测试问答系统在九个社会类别中的社会偏见。该数据集构建于BBQ的基础之上，后者由研究团队精心设计，旨在通过超过58,000个手工验证的项目，系统性地评估模型在年龄、残疾状况、性别认同等维度的偏见表现。BBQ-Eval通过引入模型生成的响应对以及简洁/合理化变体，深化了对偏见动态的细致分析，为理解模型在证据与刻板印象之间的抉择机制提供了结构化工具，推动了负责任人工智能的发展。

当前挑战

该数据集致力于解决问答系统中社会偏见检测的挑战，核心在于区分模型是基于上下文证据还是默认社会刻板印象进行回答。具体挑战包括：在模糊语境下，模型易受隐性偏见影响而输出刻板答案；在明确语境中，模型需克服偏见干扰以遵循文本证据。构建过程中的挑战涉及多个层面：从BBQ大规模语料中均衡抽样九大社会类别并保持属性平衡；利用大语言模型生成证据性与刻板印象性答案对时，需确保逻辑合理性与对比鲜明性；人工过滤环节要求审阅者精准识别答案的清晰度与动态对比，同时避免引入主观选择偏差；此外，创建简洁变体需在去除合理化文本后仍保留有意义的对比，这对数据一致性提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，评估模型的社会偏见已成为确保人工智能公平性的关键环节。BBQ-Eval数据集作为偏见基准的衍生评估工具，其经典使用场景在于系统性地测试问答模型在九大社会维度上的偏见倾向。通过精心设计的模糊与明确语境，配合负面与非负面问题极性，该数据集能够揭示模型在证据不足时是否默认依赖刻板印象，或在明确证据下能否坚持客观判断。这种结构化评估为研究者提供了量化模型偏见程度的标准化框架，尤其在对比不同模型或同一模型在不同训练阶段的偏见演化方面展现出重要价值。

实际应用

在实际应用层面，BBQ-Eval数据集为开发负责任的人工智能产品提供了关键的测试基准。科技公司在部署对话系统、智能客服或内容生成工具前，可利用该数据集检测模型是否潜藏针对年龄、性别、种族等敏感属性的歧视性倾向。例如，在招聘自动化系统或金融风险评估模型中，避免因算法偏见而放大社会不公。此外，该数据集支持对模型进行持续监控，帮助机构在模型迭代更新后快速评估其公平性变化，满足日益严格的伦理审查与合规要求，最终促进人工智能技术在教育、医疗、司法等社会敏感领域的可信应用。

衍生相关工作

围绕BBQ-Eval数据集，学术界已衍生出一系列聚焦模型偏见分析与缓解的经典研究工作。这些研究通常利用该数据集的对比答案对，开发新的评估指标以更精准地度量偏见强度，或构建对抗性训练框架来减少模型对刻板印象的依赖。部分工作进一步扩展了其方法论，将语境条件与问题极性的组合分析应用于多模态或跨语言模型的偏见评估。此外，基于该数据集揭示的偏见模式，研究者提出了多种去偏见技术，如通过数据增强引入反刻板印象示例，或在模型推理过程中植入公平性约束，这些进展共同推动了公平机器学习这一子领域的理论深化与技术革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集