five

quantiles/bbq

收藏
Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/quantiles/bbq
下载链接
链接失效反馈
官方服务:
资源简介:
BBQ(Bias Benchmark for QA)是一个用于评估自然语言处理(NLP)模型在问答任务中社会偏见的数据集。它由作者手工构建,专注于美国英语语境下的九个社会维度,包括年龄、残疾状况、性别认同、国籍、外貌、种族/民族、种族与社会经济地位交叉、种族与性别交叉、宗教、社会经济地位和性取向。数据集通过两个层面评估模型:一是在信息不足的上下文中测试模型是否依赖社会偏见(如刻板印象)生成回答;二是在信息充分的上下文中测试模型偏见是否会覆盖正确答案。研究发现,模型在信息不足时经常表现出偏见,而在信息充分时,尽管准确性提高,但偏见仍存在,且当正确答案与偏见一致时,模型准确性平均高出3.4个百分点。该数据集旨在帮助识别和缓解NLP模型中的有害偏见,相关论文已发表在ACL 2022 Findings中。

许可证:CC-BY-4.0 语言:英语(en) 标签:社会偏见 展示名称:BBQ 配置项: - 配置名称:全部(All) 数据文件: - 拆分:测试集(test) 路径:data/All.jsonl 设为默认配置:是 - 配置名称:年龄(Age) 数据文件: - 拆分:测试集(test) 路径:data/Age.jsonl - 配置名称:残疾状况(Disability_status) 数据文件: - 拆分:测试集(test) 路径:data/Disability_status.jsonl - 配置名称:性别认同(Gender_identity) 数据文件: - 拆分:测试集(test) 路径:data/Gender_identity.jsonl - 配置名称:国籍(Nationality) 数据文件: - 拆分:测试集(test) 路径:data/Nationality.jsonl - 配置名称:外貌(Physical_appearance) 数据文件: - 拆分:测试集(test) 路径:data/Physical_appearance.jsonl - 配置名称:种族/民族(Race_ethnicity) 数据文件: - 拆分:测试集(test) 路径:data/Race_ethnicity.jsonl - 配置名称:种族×社会经济地位(Race_x_SES) 数据文件: - 拆分:测试集(test) 路径:data/Race_x_SES.jsonl - 配置名称:种族×性别(Race_x_gender) 数据文件: - 拆分:测试集(test) 路径:data/Race_x_gender.jsonl - 配置名称:宗教(Religion) 数据文件: - 拆分:测试集(test) 路径:data/Religion.jsonl - 配置名称:社会经济地位(SES) 数据文件: - 拆分:测试集(test) 路径:data/SES.jsonl - 配置名称:性取向(Sexual_orientation) 数据文件: - 拆分:测试集(test) 路径:data/Sexual_orientation.jsonl # BBQ 本仓库为问答偏见基准数据集的代码仓库,访问地址:https://github.com/nyu-mll/BBQ 作者:Alicia Parrish、Angelica Chen、Nikita Nangia、Vishakh Padmakumar、Jason Phang、Jana Thompson、Phu Mon Htut 及 Samuel R. Bowman。 *本仓库为 https://huggingface.co/datasets/heegyu/bbq 的分叉版本,新增了包含所有子集的「全部」配置项。* ## 关于BBQ(论文摘要) 已有充分文献证实,自然语言处理(NLP)模型会学习社会偏见,但针对这类偏见在问答(QA)等实际应用任务的模型输出中如何体现的相关研究却寥寥无几。我们推出了问答偏见基准数据集(Bias Benchmark for QA,简称BBQ),该数据集由作者团队构建,包含多组问题集,用于凸显针对受保护群体的已证实社会偏见,覆盖美国英语语境下的九类社会维度。我们的任务从两个维度评估模型响应:(1) 当上下文信息不足时,测试模型响应在多大程度上反映社会偏见;(2) 当上下文提供足够信息时,测试模型的偏见是否会覆盖正确答案选项。我们发现,在上下文信息不足的场景中,模型往往会依赖刻板印象,这意味着模型输出会在该设定下持续重现有害偏见。尽管当上下文能提供足够信息时,模型的准确率会更高,但它们仍会依赖刻板印象;当正确答案与社会偏见相符时,模型的平均准确率比正确答案与偏见冲突时高出最高可达3.4个百分点;而针对性别相关样本的测试中,多数模型的这一差距甚至扩大至5个百分点以上。 ## 论文详情 您可通过[此链接](https://github.com/nyu-mll/BBQ/blob/main/QA_bias_benchmark.pdf)查阅我们的论文《BBQ:手工构建的问答偏见基准数据集》。该论文已发表于ACL 2022的研究成果板块(Findings of ACL 2022),[此处](https://aclanthology.org/2022.findings-acl.165/)可获取正式发表版本。
提供机构:
quantiles
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作