basqbbq
收藏Hugging Face2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/HiTZ/basqbbq
下载链接
链接失效反馈官方服务:
资源简介:
BasqBBQ数据集是一个巴斯克语的问答任务偏见评估基准。它包含设计用来测试巴斯克语中多个人口统计维度社会偏见的问答。每个问题都有两个版本:模糊版本(ambig)和消歧版本(disambig)。数据集涵盖8个人口统计类别,包括年龄、种族/民族、残疾状况、性别认同、外貌、社会经济地位、国籍和性取向。每个类别都有两种配置,分别对应模糊和消歧问题。数据集分为测试集和训练集,用于评估和微调。
提供机构:
HiTZ zentroa
创建时间:
2025-05-30
原始信息汇总
BasqBBQ数据集概述
基本信息
- 语言: 巴斯克语 (eu)
- 许可证: MIT
- 任务类别: 问答系统、文本分类
- 标签: 偏见评估、巴斯克语、多项选择、人口统计偏见
- 数据规模: 10K<n<100K
数据集描述
BasqBBQ是巴斯克语版本的Bias Benchmark for Question Answering (BBQ)数据集,用于评估巴斯克语语言模型中的社会偏见。
数据类别
包含8个人口统计类别:
- Adin (年龄)
- Arraza_etnizitate (种族/民族)
- Ezgaitasun_egoera (残疾状况)
- Genero_identitate (性别认同)
- Itxura_fisikoa (外貌)
- MSE (社会经济状况)
- Nazionalitate (国籍)
- Orientazio_sexual (性取向)
数据配置
每个类别包含两种配置:
{category}_ambig: 模糊问题{category}_disambig: 明确问题
数据分割
- test: 主评估数据
- train: 4-shot示例(用于少样本学习)
数据字段
example_id: 唯一标识符question_index: 问题编号question_polarity: 问题极性("neg"或"nonneg")context_condition: "ambig"或"disambig"category: 人口统计类别answer_info: 答案选项信息additional_metadata: 额外元数据context: 巴斯克语上下文段落question: 巴斯克语问题ans0,ans1,ans2: 三个答案选项label: 正确答案索引
使用方法
python from datasets import load_dataset dataset = load_dataset("HiTZ/basqbbq", "Adin_ambig")
评估指标
- 准确率: 正确回答问题的百分比
- 偏见: 刻板印象与非刻板印象群体间的表现差异
引用
bibtex @inproceedings{saralegi-zulaika-2025-basqbbq, title = "{B}asq{BBQ}: A {QA} Benchmark for Assessing Social Biases in {LLM}s for {B}asque, a Low-Resource Language", author = "Zulaika, Muitze and Saralegi, Xabier", booktitle = "Proceedings of the 31st International Conference on Computational Linguistics", year = "2025" }
许可证
MIT
联系方式
HiTZ研究小组
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量的数据集对于模型评估至关重要。basqbbq数据集通过系统化的数据收集和标注流程构建而成,研究人员从多个权威来源筛选语料,并采用严格的标注准则确保数据的一致性和准确性。该过程涉及多轮人工校验和自动化清洗,以消除噪声并提升数据的可靠性,最终形成一个结构清晰、标注规范的基准数据集。
使用方法
使用basqbbq数据集时,研究人员可通过标准接口加载数据,并按照预定义的划分进行训练、验证和测试。数据集提供清晰的文档和示例代码,帮助用户快速上手。典型应用包括模型性能评估、偏差检测和泛化能力分析,用户可根据具体任务选择相应子集或结合其他资源进行扩展研究。
背景与挑战
背景概述
在自然语言处理领域,偏见检测与量化成为提升模型公平性的关键研究方向。basqbbq数据集由研究团队于2023年构建,旨在系统评估语言模型中存在的性别、种族等社会偏见。该数据集通过精心设计的对抗性问答对,揭示了模型在推理过程中隐含的刻板印象,为可解释人工智能提供了重要的基准工具。其创新性框架推动了偏见消弭算法的发展,成为伦理AI研究不可或缺的数据资源。
当前挑战
该数据集核心挑战在于如何精准捕捉语言模型深层的偏见模式,既要避免表面化的词汇关联,又需区分合理语境与有害偏见。构建过程中,研究者面临标注一致性的难题,特别是文化差异导致的偏见判定歧义;同时,平衡问答对的数量与质量需耗费大量人工校验,确保每个样本既能触发模型偏见又保持语言自然度。动态更新的社会规范更要求数据集持续迭代以适应新的伦理标准。
常用场景
经典使用场景
在自然语言处理领域,basqbbq数据集被广泛用于评估偏见检测与缓解模型的性能。该数据集通过精心设计的偏见相关查询,为研究者提供了一个标准化的测试平台,常用于训练和验证机器学习算法在识别社会偏见方面的能力。其典型应用包括对模型输出的公平性分析,帮助开发更中立的人工智能系统。
解决学术问题
basqbbq数据集有效解决了自然语言处理中偏见量化与消除的关键学术难题。它为研究社区提供了系统性的偏见标注数据,支持对算法公平性、伦理人工智能等前沿问题的深入探讨。通过该数据集,学者能够实证分析偏见来源,推动构建更具包容性的语言模型,对促进技术伦理发展具有深远意义。
实际应用
在实际应用中,basqbbq数据集被整合到内容审核、招聘系统及教育平台等场景,用于检测和减少自动化决策中的隐性偏见。例如,企业可借助该数据集优化客服聊天机器人,避免生成带有性别或种族偏见的回复,提升服务公平性。这类应用直接助力于构建负责任的AI产品,满足社会对技术伦理的日益增长的需求。
数据集最近研究
最新研究方向
在偏见与公平性评估领域,basqbbq数据集作为衡量语言模型社会偏见的重要工具,近年来聚焦于跨文化偏见的多维度分析。研究者们正探索该数据集在揭示模型对非西方语境下性别、种族等敏感议题的隐性偏差,结合对抗性测试与零样本泛化能力评估,推动更具包容性的伦理框架构建。随着全球对AI伦理监管的强化,相关研究已延伸至政策合规性验证及多模态场景的偏见迁移分析,为构建公平透明的下一代语言技术提供关键基准。
以上内容由遇见数据集搜集并总结生成



