quantiles/bbq
收藏Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/quantiles/bbq
下载链接
链接失效反馈官方服务:
资源简介:
BBQ(Bias Benchmark for QA)是一个用于评估自然语言处理(NLP)模型在问答任务中社会偏见的数据集。它由作者手工构建,专注于美国英语语境下的九个社会维度,包括年龄、残疾状况、性别认同、国籍、外貌、种族/民族、种族与社会经济地位交叉、种族与性别交叉、宗教、社会经济地位和性取向。数据集通过两个层面评估模型:一是在信息不足的上下文中测试模型是否依赖社会偏见(如刻板印象)生成回答;二是在信息充分的上下文中测试模型偏见是否会覆盖正确答案。研究发现,模型在信息不足时经常表现出偏见,而在信息充分时,尽管准确性提高,但偏见仍存在,且当正确答案与偏见一致时,模型准确性平均高出3.4个百分点。该数据集旨在帮助识别和缓解NLP模型中的有害偏见,相关论文已发表在ACL 2022 Findings中。
许可证:CC-BY-4.0
语言:英语(en)
标签:社会偏见
展示名称:BBQ
配置项:
- 配置名称:全部(All)
数据文件:
- 拆分:测试集(test)
路径:data/All.jsonl
设为默认配置:是
- 配置名称:年龄(Age)
数据文件:
- 拆分:测试集(test)
路径:data/Age.jsonl
- 配置名称:残疾状况(Disability_status)
数据文件:
- 拆分:测试集(test)
路径:data/Disability_status.jsonl
- 配置名称:性别认同(Gender_identity)
数据文件:
- 拆分:测试集(test)
路径:data/Gender_identity.jsonl
- 配置名称:国籍(Nationality)
数据文件:
- 拆分:测试集(test)
路径:data/Nationality.jsonl
- 配置名称:外貌(Physical_appearance)
数据文件:
- 拆分:测试集(test)
路径:data/Physical_appearance.jsonl
- 配置名称:种族/民族(Race_ethnicity)
数据文件:
- 拆分:测试集(test)
路径:data/Race_ethnicity.jsonl
- 配置名称:种族×社会经济地位(Race_x_SES)
数据文件:
- 拆分:测试集(test)
路径:data/Race_x_SES.jsonl
- 配置名称:种族×性别(Race_x_gender)
数据文件:
- 拆分:测试集(test)
路径:data/Race_x_gender.jsonl
- 配置名称:宗教(Religion)
数据文件:
- 拆分:测试集(test)
路径:data/Religion.jsonl
- 配置名称:社会经济地位(SES)
数据文件:
- 拆分:测试集(test)
路径:data/SES.jsonl
- 配置名称:性取向(Sexual_orientation)
数据文件:
- 拆分:测试集(test)
路径:data/Sexual_orientation.jsonl
# BBQ
本仓库为问答偏见基准数据集的代码仓库,访问地址:https://github.com/nyu-mll/BBQ
作者:Alicia Parrish、Angelica Chen、Nikita Nangia、Vishakh Padmakumar、Jason Phang、Jana Thompson、Phu Mon Htut 及 Samuel R. Bowman。
*本仓库为 https://huggingface.co/datasets/heegyu/bbq 的分叉版本,新增了包含所有子集的「全部」配置项。*
## 关于BBQ(论文摘要)
已有充分文献证实,自然语言处理(NLP)模型会学习社会偏见,但针对这类偏见在问答(QA)等实际应用任务的模型输出中如何体现的相关研究却寥寥无几。我们推出了问答偏见基准数据集(Bias Benchmark for QA,简称BBQ),该数据集由作者团队构建,包含多组问题集,用于凸显针对受保护群体的已证实社会偏见,覆盖美国英语语境下的九类社会维度。我们的任务从两个维度评估模型响应:(1) 当上下文信息不足时,测试模型响应在多大程度上反映社会偏见;(2) 当上下文提供足够信息时,测试模型的偏见是否会覆盖正确答案选项。我们发现,在上下文信息不足的场景中,模型往往会依赖刻板印象,这意味着模型输出会在该设定下持续重现有害偏见。尽管当上下文能提供足够信息时,模型的准确率会更高,但它们仍会依赖刻板印象;当正确答案与社会偏见相符时,模型的平均准确率比正确答案与偏见冲突时高出最高可达3.4个百分点;而针对性别相关样本的测试中,多数模型的这一差距甚至扩大至5个百分点以上。
## 论文详情
您可通过[此链接](https://github.com/nyu-mll/BBQ/blob/main/QA_bias_benchmark.pdf)查阅我们的论文《BBQ:手工构建的问答偏见基准数据集》。该论文已发表于ACL 2022的研究成果板块(Findings of ACL 2022),[此处](https://aclanthology.org/2022.findings-acl.165/)可获取正式发表版本。
提供机构:
quantiles



