heegyu/bbq

Hugging Face2023-07-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/heegyu/bbq

下载链接

链接失效反馈

资源简介：

BBQ（Bias Benchmark for QA）是一个用于评估问答模型中社会偏见的数据集。该数据集由作者构建，包含了针对美国英语语境中九个社会维度的偏见问题集。数据集的任务是评估模型在两个层次上的响应：一是在信息不足的上下文中测试模型是否反映社会偏见，二是在信息充分的上下文中测试模型的偏见是否覆盖了正确答案。研究发现，模型在信息不足的上下文中往往依赖刻板印象，而在信息充分的上下文中，尽管模型更准确，但仍依赖刻板印象，并且当正确答案与社会偏见一致时，模型的准确率平均高出3.4个百分点，针对性别的例子中这一差异扩大到超过5个百分点。

提供机构：

heegyu

原始信息汇总

数据集概述

数据集名称

数据集描述

BBQ是一个专为评估问答（QA）模型中社会偏见而设计的数据集。该数据集由作者精心构建，包含针对美国英语语境下九个社会维度的保护群体的偏见问题集。

数据集目的

评估模型在不同信息量上下文中的偏见表现：(i) 在信息不足的上下文中测试模型输出反映社会偏见的强度；(ii) 在充分信息量的上下文中测试模型偏见是否覆盖正确答案。

数据集发现

模型在信息不足的上下文中常依赖刻板印象，导致输出中持续再现有害偏见。
尽管在信息充分的上下文中模型更准确，但仍依赖刻板印象，且当正确答案与社会偏见一致时，准确率平均高出3.4个百分点，针对性别的问题中这一差异扩大至超过5个百分点。

数据集作者

Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, Samuel R. Bowman.

数据集许可证

CC-BY-4.0

相关论文

论文标题：BBQ: A Hand-Built Bias Benchmark for Question Answering
论文链接：BBQ论文
发表位置：Findings of ACL 2022

AI搜集汇总

数据集介绍

构建方式

BBQ数据集由Alicia Parrish等人构建，旨在揭示自然语言处理模型在问答任务中表现出的社会偏见。该数据集通过精心设计的问题集，涵盖了九个与美国英语使用情境相关的社会维度，针对受保护群体的社会偏见进行测试。构建过程中，研究者特别关注了在信息不足和信息充分两种情境下，模型如何反映和强化这些偏见。

特点

BBQ数据集的显著特点在于其专注于揭示模型在问答任务中的社会偏见，特别是在信息不足的情境下，模型如何依赖刻板印象进行回答。此外，数据集还评估了在信息充分的情况下，模型是否能够克服偏见，选择正确的答案。这种双重评估机制使得BBQ成为研究模型偏见行为的重要工具。

使用方法

BBQ数据集主要用于评估和改进自然语言处理模型在问答任务中的公平性和无偏性。研究者可以通过该数据集测试模型在不同社会维度下的偏见表现，并据此调整模型训练策略，以减少有害偏见的产生。此外，BBQ还可用于开发和验证新的偏见检测和纠正算法，从而提升模型的社会责任感。

背景与挑战

背景概述

在自然语言处理（NLP）领域，尽管已有大量研究揭示了模型在学习过程中如何吸收社会偏见，但对于这些偏见如何在实际应用任务如问答系统（QA）中表现出来的研究却相对较少。BBQ数据集由Alicia Parrish等人于2022年创建，旨在通过构建一个专注于问答任务的偏见基准，揭示模型在处理涉及受保护群体的问题时所表现出的社会偏见。该数据集通过九个与美国英语使用背景相关的社会维度，设计了一系列问题集，以评估模型在不同信息丰富度上下文中的偏见表现。BBQ数据集的发布不仅填补了这一研究空白，还为后续研究提供了重要的基准，推动了NLP模型在处理社会偏见方面的进一步发展。

当前挑战

BBQ数据集在构建过程中面临的主要挑战包括如何准确捕捉和量化模型在问答任务中的社会偏见。具体而言，数据集需要设计出能够在不同信息丰富度上下文中有效测试模型偏见的任务，这要求对社会偏见的深入理解和精确建模。此外，如何确保数据集的广泛适用性和代表性，使其能够涵盖多种社会维度和不同的受保护群体，也是构建过程中的一大难题。在应用层面，BBQ数据集揭示了现有模型在处理涉及社会偏见的问题时，往往依赖刻板印象而非事实信息，这不仅影响了模型的准确性，还可能加剧社会偏见，为模型的公平性和公正性提出了新的挑战。

常用场景

经典使用场景

BBQ数据集主要用于评估自然语言处理模型在问答任务中的社会偏见表现。通过提供一系列包含社会偏见的问答对，研究者可以测试模型在不同情境下对这些偏见的敏感性和反应。具体而言，数据集设计了两种测试情境：一是在信息不足的上下文中，模型是否倾向于反映社会偏见；二是在信息充分的上下文中，模型是否能够克服偏见并选择正确的答案。

衍生相关工作

BBQ数据集的发布激发了大量相关研究工作，特别是在偏见检测和公平性评估领域。许多研究者基于BBQ数据集开发了新的偏见检测算法和公平性评估框架，进一步推动了自然语言处理模型在社会偏见方面的研究。此外，BBQ数据集还被广泛用于开发和测试对抗性训练方法，以增强模型在面对偏见数据时的鲁棒性和公平性。

数据集最近研究