quantiles/bbq

Name: quantiles/bbq
Creator: quantiles
Published: 2026-04-26 00:10:19
License: 暂无描述

Hugging Face2026-04-26 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/quantiles/bbq

下载链接

链接失效反馈

官方服务：

资源简介：

BBQ（Bias Benchmark for QA）是一个用于评估自然语言处理（NLP）模型在问答任务中社会偏见的数据集。它由作者手工构建，专注于美国英语语境下的九个社会维度，包括年龄、残疾状况、性别认同、国籍、外貌、种族/民族、种族与社会经济地位交叉、种族与性别交叉、宗教、社会经济地位和性取向。数据集通过两个层面评估模型：一是在信息不足的上下文中测试模型是否依赖社会偏见（如刻板印象）生成回答；二是在信息充分的上下文中测试模型偏见是否会覆盖正确答案。研究发现，模型在信息不足时经常表现出偏见，而在信息充分时，尽管准确性提高，但偏见仍存在，且当正确答案与偏见一致时，模型准确性平均高出3.4个百分点。该数据集旨在帮助识别和缓解NLP模型中的有害偏见，相关论文已发表在ACL 2022 Findings中。

许可证：CC-BY-4.0 语言：英语（en）标签：社会偏见展示名称：BBQ 配置项： - 配置名称：全部（All）数据文件： - 拆分：测试集（test）路径：data/All.jsonl 设为默认配置：是 - 配置名称：年龄（Age）数据文件： - 拆分：测试集（test）路径：data/Age.jsonl - 配置名称：残疾状况（Disability_status）数据文件： - 拆分：测试集（test）路径：data/Disability_status.jsonl - 配置名称：性别认同（Gender_identity）数据文件： - 拆分：测试集（test）路径：data/Gender_identity.jsonl - 配置名称：国籍（Nationality）数据文件： - 拆分：测试集（test）路径：data/Nationality.jsonl - 配置名称：外貌（Physical_appearance）数据文件： - 拆分：测试集（test）路径：data/Physical_appearance.jsonl - 配置名称：种族/民族（Race_ethnicity）数据文件： - 拆分：测试集（test）路径：data/Race_ethnicity.jsonl - 配置名称：种族×社会经济地位（Race_x_SES）数据文件： - 拆分：测试集（test）路径：data/Race_x_SES.jsonl - 配置名称：种族×性别（Race_x_gender）数据文件： - 拆分：测试集（test）路径：data/Race_x_gender.jsonl - 配置名称：宗教（Religion）数据文件： - 拆分：测试集（test）路径：data/Religion.jsonl - 配置名称：社会经济地位（SES）数据文件： - 拆分：测试集（test）路径：data/SES.jsonl - 配置名称：性取向（Sexual_orientation）数据文件： - 拆分：测试集（test）路径：data/Sexual_orientation.jsonl # BBQ 本仓库为问答偏见基准数据集的代码仓库，访问地址：https://github.com/nyu-mll/BBQ 作者：Alicia Parrish、Angelica Chen、Nikita Nangia、Vishakh Padmakumar、Jason Phang、Jana Thompson、Phu Mon Htut 及 Samuel R. Bowman。 *本仓库为 https://huggingface.co/datasets/heegyu/bbq 的分叉版本，新增了包含所有子集的「全部」配置项。* ## 关于BBQ（论文摘要）已有充分文献证实，自然语言处理（NLP）模型会学习社会偏见，但针对这类偏见在问答（QA）等实际应用任务的模型输出中如何体现的相关研究却寥寥无几。我们推出了问答偏见基准数据集（Bias Benchmark for QA，简称BBQ），该数据集由作者团队构建，包含多组问题集，用于凸显针对受保护群体的已证实社会偏见，覆盖美国英语语境下的九类社会维度。我们的任务从两个维度评估模型响应：(1) 当上下文信息不足时，测试模型响应在多大程度上反映社会偏见；(2) 当上下文提供足够信息时，测试模型的偏见是否会覆盖正确答案选项。我们发现，在上下文信息不足的场景中，模型往往会依赖刻板印象，这意味着模型输出会在该设定下持续重现有害偏见。尽管当上下文能提供足够信息时，模型的准确率会更高，但它们仍会依赖刻板印象；当正确答案与社会偏见相符时，模型的平均准确率比正确答案与偏见冲突时高出最高可达3.4个百分点；而针对性别相关样本的测试中，多数模型的这一差距甚至扩大至5个百分点以上。 ## 论文详情您可通过[此链接](https://github.com/nyu-mll/BBQ/blob/main/QA_bias_benchmark.pdf)查阅我们的论文《BBQ：手工构建的问答偏见基准数据集》。该论文已发表于ACL 2022的研究成果板块（Findings of ACL 2022），[此处](https://aclanthology.org/2022.findings-acl.165/)可获取正式发表版本。

提供机构：

quantiles

5,000+

优质数据集

54 个

任务类型

进入经典数据集