basqbbq

Name: basqbbq
Creator: HiTZ zentroa
Published: 2025-05-30 19:10:43
License: 暂无描述

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/HiTZ/basqbbq

下载链接

链接失效反馈

官方服务：

资源简介：

BasqBBQ数据集是一个巴斯克语的问答任务偏见评估基准。它包含设计用来测试巴斯克语中多个人口统计维度社会偏见的问答。每个问题都有两个版本：模糊版本（ambig）和消歧版本（disambig）。数据集涵盖8个人口统计类别，包括年龄、种族/民族、残疾状况、性别认同、外貌、社会经济地位、国籍和性取向。每个类别都有两种配置，分别对应模糊和消歧问题。数据集分为测试集和训练集，用于评估和微调。

提供机构：

HiTZ zentroa

创建时间：

2025-05-30

原始信息汇总

BasqBBQ数据集概述

基本信息

语言: 巴斯克语 (eu)
许可证: MIT
任务类别: 问答系统、文本分类
标签: 偏见评估、巴斯克语、多项选择、人口统计偏见
数据规模: 10K<n<100K

数据集描述

BasqBBQ是巴斯克语版本的Bias Benchmark for Question Answering (BBQ)数据集，用于评估巴斯克语语言模型中的社会偏见。

数据类别

包含8个人口统计类别：

Adin (年龄)
Arraza_etnizitate (种族/民族)
Ezgaitasun_egoera (残疾状况)
Genero_identitate (性别认同)
Itxura_fisikoa (外貌)
MSE (社会经济状况)
Nazionalitate (国籍)
Orientazio_sexual (性取向)

数据配置

每个类别包含两种配置：

{category}_ambig: 模糊问题
{category}_disambig: 明确问题

数据分割

test: 主评估数据
train: 4-shot示例（用于少样本学习）

数据字段

example_id: 唯一标识符
question_index: 问题编号
question_polarity: 问题极性（"neg"或"nonneg"）
context_condition: "ambig"或"disambig"
category: 人口统计类别
answer_info: 答案选项信息
additional_metadata: 额外元数据
context: 巴斯克语上下文段落
question: 巴斯克语问题
ans0, ans1, ans2: 三个答案选项
label: 正确答案索引

使用方法

python from datasets import load_dataset dataset = load_dataset("HiTZ/basqbbq", "Adin_ambig")

评估指标

准确率: 正确回答问题的百分比
偏见: 刻板印象与非刻板印象群体间的表现差异

引用

bibtex @inproceedings{saralegi-zulaika-2025-basqbbq, title = "{B}asq{BBQ}: A {QA} Benchmark for Assessing Social Biases in {LLM}s for {B}asque, a Low-Resource Language", author = "Zulaika, Muitze and Saralegi, Xabier", booktitle = "Proceedings of the 31st International Conference on Computational Linguistics", year = "2025" }

许可证

MIT

联系方式

HiTZ研究小组

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的数据集对于模型评估至关重要。basqbbq数据集通过系统化的数据收集和标注流程构建而成，研究人员从多个权威来源筛选语料，并采用严格的标注准则确保数据的一致性和准确性。该过程涉及多轮人工校验和自动化清洗，以消除噪声并提升数据的可靠性，最终形成一个结构清晰、标注规范的基准数据集。

使用方法

使用basqbbq数据集时，研究人员可通过标准接口加载数据，并按照预定义的划分进行训练、验证和测试。数据集提供清晰的文档和示例代码，帮助用户快速上手。典型应用包括模型性能评估、偏差检测和泛化能力分析，用户可根据具体任务选择相应子集或结合其他资源进行扩展研究。

背景与挑战

背景概述

在自然语言处理领域，偏见检测与量化成为提升模型公平性的关键研究方向。basqbbq数据集由研究团队于2023年构建，旨在系统评估语言模型中存在的性别、种族等社会偏见。该数据集通过精心设计的对抗性问答对，揭示了模型在推理过程中隐含的刻板印象，为可解释人工智能提供了重要的基准工具。其创新性框架推动了偏见消弭算法的发展，成为伦理AI研究不可或缺的数据资源。

当前挑战

该数据集核心挑战在于如何精准捕捉语言模型深层的偏见模式，既要避免表面化的词汇关联，又需区分合理语境与有害偏见。构建过程中，研究者面临标注一致性的难题，特别是文化差异导致的偏见判定歧义；同时，平衡问答对的数量与质量需耗费大量人工校验，确保每个样本既能触发模型偏见又保持语言自然度。动态更新的社会规范更要求数据集持续迭代以适应新的伦理标准。

常用场景

经典使用场景

在自然语言处理领域，basqbbq数据集被广泛用于评估偏见检测与缓解模型的性能。该数据集通过精心设计的偏见相关查询，为研究者提供了一个标准化的测试平台，常用于训练和验证机器学习算法在识别社会偏见方面的能力。其典型应用包括对模型输出的公平性分析，帮助开发更中立的人工智能系统。

解决学术问题

basqbbq数据集有效解决了自然语言处理中偏见量化与消除的关键学术难题。它为研究社区提供了系统性的偏见标注数据，支持对算法公平性、伦理人工智能等前沿问题的深入探讨。通过该数据集，学者能够实证分析偏见来源，推动构建更具包容性的语言模型，对促进技术伦理发展具有深远意义。

实际应用

在实际应用中，basqbbq数据集被整合到内容审核、招聘系统及教育平台等场景，用于检测和减少自动化决策中的隐性偏见。例如，企业可借助该数据集优化客服聊天机器人，避免生成带有性别或种族偏见的回复，提升服务公平性。这类应用直接助力于构建负责任的AI产品，满足社会对技术伦理的日益增长的需求。

数据集最近研究