proxectonos/GlBBQ
收藏Hugging Face2026-04-27 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/proxectonos/GlBBQ
下载链接
链接失效反馈官方服务:
资源简介:
GlBBQ是BBQ(偏见基准问答)的加利西亚语改编版,旨在测量多选问答系统中的社会偏见。具体来说,它源自EsBBQ(西班牙语偏见基准问答),并遵循BBQ框架,在模糊上下文(正确答案未知,模型应避免依赖刻板印象)和去歧义上下文(正确答案明确支持,偏见可能导致错误预测)下评估模型。数据集扩展至加利西亚语,提供EsBBQ的语言适应版本。它包括27,320个实例、323个模板和10个社会偏见类别(如年龄、残疾状况、性别、LGBTQIA、国籍、外貌、种族/民族、宗教、社会经济地位和西班牙地区)。每个实例包含一个上下文、一个问题及三个答案选项,任务是根据上下文选择正确答案。数据集结构支持评估偏见在不确定性下的表现和偏见敏感条件下的准确性。用途包括评估语言模型的社会偏见、研究跨语言偏见转移、基准测试加利西亚语NLP系统以及多语言问答公平性研究。局限性包括专注于刻板印象偏见、继承EsBBQ的西班牙特定社会文化假设、未明确建模交叉性,以及翻译可能引入轻微语言伪影。
GlBBQ is a Galician adaptation of the BBQ (Bias Benchmark for QA), a benchmark designed to measure social bias in multiple-choice question answering (QA) systems. More specifically, GlBBQ is derived from EsBBQ, the Spanish adaptation of BBQ. The dataset follows the BBQ framework, where models are evaluated under ambiguous contexts (where the correct answer is unknown and models should avoid relying on stereotypes) and disambiguated contexts (where the correct answer is explicitly supported and bias may lead to incorrect predictions). GlBBQ extends this framework to Galician by providing a linguistically adapted version of EsBBQ. It includes 27,320 instances, 323 templates, and 10 social bias categories (such as Age, Disability Status, Gender, LGBTQIA, Nationality, Physical Appearance, Race/Ethnicity, Religion, Socioeconomic Status, and Spanish Region). Each instance consists of a context, a question, and three answer options, with the task being to select the correct answer given the context. The dataset structure enables evaluation of both bias under uncertainty and accuracy under bias-sensitive conditions. Intended uses include evaluating social bias in language models, studying cross-lingual bias transfer, benchmarking Galician NLP systems, and research on fairness in multilingual QA. Limitations include a focus on stereotype-based bias, inheritance of EsBBQs Spain-specific sociocultural assumptions, lack of explicit modeling of intersectionality, and potential minor linguistic artifacts from translation.
提供机构:
proxectonos
搜集汇总
数据集介绍

构建方式
GlBBQ是基于EsBBQ(西班牙语偏见基准问答数据集)通过精心的语言转换与社会文化适配构建而成的加利西亚语版本。EsBBQ本身源自原始的BBQ(Bias Benchmark for QA)基准,该基准专为衡量多选问答系统中的社会偏见而设计。EsBBQ包含27,320个样本、323个模板,覆盖10类社会偏见范畴,并已针对西班牙社会文化语境进行手工调整。GlBBQ完整保留了EsBBQ的结构与评估框架,将其中的所有上下文、问题与选项翻译并适配为地道的加利西亚语,以确保语言的自然性与文化相关性。数据集的构建过程重点在于精准传递原有意涵,同时严格保持双条件评估设计:模糊上下文(正确答案未知)与消歧上下文(正确答案明确),从而在跨语言场景下延续对模型偏见与准确性的双重检验。
特点
GlBBQ作为加利西亚语首个针对多选问答系统的社会偏见评估基准,其核心特点在于严格遵循BBQ框架下的双上下文评估机制。在模糊上下文中,模型需在信息不足时避免依赖刻板印象作答;在消歧上下文中,模型应基于证据选择正确选项,而偏见可能导致其偏向错误答案。数据集涵盖年龄、残疾状况、性别、LGBTQIA、国籍、外貌、种族/民族、宗教、社会经济地位及西班牙地区共10类社会范畴,每类均包含负向与非负向问题类型。实例结构由上下文类型(模糊/消歧)、问题类型及三个选项(目标群体、非目标群体、未知)组成,能够精准捕捉模型在不确定性与偏见敏感条件下的表现差异,为评估加利西亚语NLP系统的公平性提供系统化工具。
使用方法
使用GlBBQ时,研究者可将模型应用于多选问答任务,针对每个实例输入上下文与问题,从三个候选项中选出正确答案。评估过程需分别统计模糊上下文与消歧上下文下的准确率与偏见倾向,以衡量模型在刻板印象规避能力与信息利用准确性上的表现。该数据集支持跨语言偏见迁移研究,通过对比GlBBQ与EsBBQ及原始BBQ的实验结果,可揭示语言模型在多语言环境中的公平性差异。此外,GlBBQ适用于加利西亚语NLP系统的基准测试与偏见审计,研究者可利用其结构化标签按社会范畴分层分析模型性能,从而识别特定偏见源。使用时应注意到数据集继承自EsBBQ的西班牙社会文化假设,翻译过程可能引入细微语言偏差,且当前版本未显式建模交叉性偏见,解读结果时需保持审慎。
背景与挑战
背景概述
随着自然语言处理技术的飞速发展,多语言模型在社会偏见评估领域面临严峻挑战。Galician Bias Benchmark for Question Answering(GlBBQ)数据集应运而生,由西班牙巴塞罗那超级计算中心(BSC)的语言技术团队于2023年创建,作为西班牙语EsBBQ数据集的加利西亚语适配版本。该数据集继承了BBQ(Bias Benchmark for QA)的评估框架,聚焦于测量问答系统中的社会偏见,涵盖年龄、性别、种族、宗教等10个社会类别。GlBBQ的核心研究问题在于评估模型在歧义与明晰两种语境下对刻板印象的依赖程度,其影响力体现在为加利西亚语NLP系统提供首个偏见基准,促进了跨语言偏见迁移研究,并为ALIA项目等欧盟资助计划提供公平性评估工具。
当前挑战
GlBBQ所解决的核心领域挑战是问答系统在模糊上下文中依赖刻板印象导致的不公平预测。该数据集要求模型区分歧义语境(正确答案未知)与明晰语境(答案明确但易受偏见影响),从而揭示偏见在不同推理条件下的行为模式。在构建过程中,挑战主要包括:一是源数据集EsBBQ基于西班牙社会文化背景设计,翻译后需确保加利西亚语版本的文化适配性,避免生硬直译引入语义偏差;二是保留了10类社会偏见的原始模板结构,但需验证跨语言迁移下刻板印象的等价性,例如西班牙地区类别在加利西亚语境中的适用性;三是歧义与明晰语境的对立设计增加了数据标注的复杂性,需通过专家校验确保每个实例的歧视性特征被准确编码。
常用场景
经典使用场景
GlBBQ数据集是首个针对加利西亚语设计的问答系统社会偏见基准评估资源。该数据集遵循BBQ框架,通过构建歧义与消歧两种上下文语境,结合十类社会偏见范畴(如年龄、性别、种族、宗教等),以多项选择问答形式考察模型在不同信息明确程度下的表现。其核心使用场景涵盖对多语言模型的偏见测量、跨语言偏见迁移分析,以及加利西亚语自然语言处理系统的公平性基准测试。研究者可通过对比模型在歧义情境下对'未知答案'选项的选择倾向,判断模型是否依赖刻板印象作答。
解决学术问题
该数据集有效填补了加利西亚语这一低资源语言在社会偏见评估领域的空白。长期以来,社会偏见研究高度集中于英语、西班牙语等高资源语言,对加利西亚语等小语种的系统性偏见评估尚属缺失。GlBBQ通过继承EsBBQ的社会文化语境框架,解决了跨语言偏见评估中常见的概念迁移失真与语境适配问题。其意义在于为低资源语言模型提供了可量化的公平性度量工具,推动了多语言人工智能伦理研究的包容性与多样性,使研究者能够更全面地审视语言模型在不同文化背景下所蕴含的潜在偏见。
衍生相关工作
GlBBQ的发布直接推动了伊比利亚语言社会偏见评估体系的构建。其母集EsBBQ催生了IberBBQ系列基准,覆盖西班牙语、加泰罗尼亚语、巴斯克语等多种伊比利亚语言。研究者基于GlBBQ框架进一步拓展了跨语言偏见对比分析工作,例如比较同一模型在西班牙语与加利西亚语上的偏见表现差异,从而揭示语言模型在迁移学习过程中如何保留或改变社会刻板印象。此外,该数据集也启发了针对低资源语言的公平性增强方法研究,包括基于提示微调的偏见缓解策略及多语言对抗训练技术。
以上内容由遇见数据集搜集并总结生成



