ESBBQ和CABBQ

Name: ESBBQ和CABBQ
Creator: 巴塞罗那超级计算中心（BSC-CNS）
Published: 2025-07-15 19:37:30
License: 暂无描述

arXiv2025-07-15 更新2025-07-17 收录

下载链接：

https://huggingface.co/datasets/BSC-LT/EsBBQ, https://huggingface.co/datasets/BSC-LT/CaBBQ, https://github.com/langtech-bsc/EsBBQ-CaBBQ

下载链接

链接失效反馈

官方服务：

资源简介：

ESBBQ和CABBQ是针对西班牙语和加泰罗尼亚语设计的问答任务的社会偏见基准数据集。这两个并行数据集基于原始的BBQ数据集，旨在使用多选题问答设置评估10个类别的社会偏见，现已适应西班牙语和加泰罗尼亚语以及西班牙的社会环境。数据集包含27,320个实例，涵盖了年龄、残疾状况、性别、LGBTQIA、国籍、外貌、种族/民族、宗教、社会经济状况（SES）和西班牙地区等10个社会类别。数据集的结构包括模板、上下文、问题、答案和占位符，每个模板都经过手动编写，并注有相关的刻板印象和社会群体。数据集的构建过程包括对原始BBQ模板的文化适应性调整，以及通过公众调查收集西班牙社会中流行的刻板印象，以确保数据集能够准确反映西班牙的社会偏见情况。

ESBBQ and CABBQ are social bias benchmark datasets for question answering tasks designed for Spanish and Catalan languages. These two parallel datasets are based on the original BBQ dataset, aiming to evaluate social biases across 10 categories via a multiple-choice question answering setup, and have been adapted to Spanish, Catalan, and the social context of Spain. The datasets contain 27,320 instances, covering 10 social categories: age, disability status, gender, LGBTQIA, nationality, physical appearance, race/ethnicity, religion, socioeconomic status (SES), and Spanish regions. The structure of the datasets includes templates, contexts, questions, answers, and placeholders. Each template is manually written and annotated with relevant stereotypes and social groups. The dataset construction process involves cultural adaptation adjustments to the original BBQ templates, as well as collecting prevalent stereotypes in Spanish society through public surveys, to ensure that the datasets can accurately reflect the social biases present in Spain.

提供机构：

巴塞罗那超级计算中心（BSC-CNS）

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

ESBBQ和CABBQ数据集是基于原始BBQ（Bias Benchmark for Question Answering）构建的西班牙语和加泰罗尼亚语问答偏见基准。构建过程包括对原始BBQ模板的手动翻译和文化适应，确保其符合西班牙的社会背景。通过公开调查收集西班牙社会中普遍存在的负面刻板印象，验证并调整原始模板的刻板印象和目标群体。数据集进一步丰富了新的模板，涵盖10个社会类别，包括年龄、残疾状况、性别、LGBTQIA、国籍、外貌、种族/民族、宗教、社会经济地位（SES）和西班牙地区。每个模板通过系统生成所有可能的上下文、问题和占位符组合，确保数据集的多样性和代表性。

特点

ESBBQ和CABBQ数据集的特点在于其文化适应性和语言多样性。数据集不仅翻译了原始BBQ模板，还根据西班牙的社会背景进行了调整，确保刻板印象的准确性和相关性。数据集包含27,320个实例，覆盖10个社会类别，每个实例通过多种上下文（模糊和明确）和问题类型（负面和非负面）生成。此外，数据集还引入了新的类别（如西班牙地区）和模板，以更好地反映西班牙社会的多样性。数据集的构建过程注重参与性方法，确保社区成员的视角和需求得到充分体现。

使用方法

ESBBQ和CABBQ数据集用于评估大型语言模型（LLMs）在西班牙语和加泰罗尼亚语中的社会偏见。使用方法包括在零样本设置下评估模型在模糊和明确上下文中的表现。通过测量模型在模糊上下文中的偏见依赖程度和在明确上下文中的正确答案选择能力，量化模型的偏见分数。评估指标包括准确性和偏见分数，分别衡量模型的任务表现和偏见倾向。数据集还可用于比较不同模型家族、规模和变体在偏见评估中的表现，为研究语言模型的社会偏见提供重要工具。

背景与挑战

背景概述

ESBBQ和CABBQ是由巴塞罗那超级计算中心（BSC-CNS）和巴斯克大学HiTZ中心的研究团队于2025年发布的西班牙语和加泰罗尼亚语问答偏见基准数据集。这两个数据集基于原始的BBQ（Bias Benchmark for Question Answering）数据集，旨在评估大型语言模型（LLMs）在西班牙和加泰罗尼亚社会背景下的社会偏见。数据集包含27,320个实例，涵盖10个社会类别，如年龄、性别、种族/民族、宗教等，通过多选问答的形式评估模型在模糊和明确情境下的偏见表现。该数据集的发布填补了非英语语言和社会背景偏见评估资源的空白，推动了多语言和跨文化偏见研究的发展。

当前挑战

ESBBQ和CABBQ面临的挑战主要包括两方面：1) 领域问题挑战：数据集的构建旨在解决大型语言模型在非英语语言（西班牙语和加泰罗尼亚语）和社会背景（西班牙文化）下的偏见评估问题。由于现有偏见评估资源主要集中在英语和美国社会背景，如何准确捕捉和评估西班牙和加泰罗尼亚社会中的独特偏见成为主要挑战。2) 构建过程挑战：在数据集构建过程中，研究人员需要克服文化适应性难题，包括手动翻译和调整原始BBQ模板以确保其符合西班牙社会背景，并通过参与式调查收集本地化偏见案例。此外，保持语法性别一致性和避免引入新的偏见也是构建过程中的关键挑战。

常用场景

经典使用场景

ESBBQ和CABBQ数据集主要用于评估大型语言模型（LLMs）在西班牙语和加泰罗尼亚语中的社会偏见。通过多选问答（QA）的形式，数据集涵盖了10个社会类别，包括年龄、残疾状况、性别、国籍、外貌、种族/民族、宗教、社会经济地位（SES）和性取向等。数据集的设计允许在模糊和明确两种上下文中评估模型的偏见倾向，从而揭示模型在缺乏足够信息时是否依赖社会刻板印象来回答问题。

衍生相关工作

ESBBQ和CABBQ的衍生工作包括对其他语言和文化背景的偏见评估工具的扩展。例如，类似的数据集已在中文（CBBQ）、韩语（KOBBQ）和巴斯克语（BASQBBQ）等语言中开发。此外，基于BBQ的设计理念，还衍生出了用于自然语言推理（BBNLI）和长文本生成（BBG）的偏见评估工具。这些工作共同推动了跨语言和跨文化偏见评估研究的发展。

数据集最近研究