five

basqbbq

收藏
Hugging Face2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/HiTZ/basqbbq
下载链接
链接失效反馈
官方服务:
资源简介:
BasqBBQ数据集是一个巴斯克语的问答任务偏见评估基准。它包含设计用来测试巴斯克语中多个人口统计维度社会偏见的问答。每个问题都有两个版本:模糊版本(ambig)和消歧版本(disambig)。数据集涵盖8个人口统计类别,包括年龄、种族/民族、残疾状况、性别认同、外貌、社会经济地位、国籍和性取向。每个类别都有两种配置,分别对应模糊和消歧问题。数据集分为测试集和训练集,用于评估和微调。
提供机构:
HiTZ zentroa
创建时间:
2025-05-30
原始信息汇总

BasqBBQ数据集概述

基本信息

  • 语言: 巴斯克语 (eu)
  • 许可证: MIT
  • 任务类别: 问答系统、文本分类
  • 标签: 偏见评估、巴斯克语、多项选择、人口统计偏见
  • 数据规模: 10K<n<100K

数据集描述

BasqBBQ是巴斯克语版本的Bias Benchmark for Question Answering (BBQ)数据集,用于评估巴斯克语语言模型中的社会偏见。

数据类别

包含8个人口统计类别:

  1. Adin (年龄)
  2. Arraza_etnizitate (种族/民族)
  3. Ezgaitasun_egoera (残疾状况)
  4. Genero_identitate (性别认同)
  5. Itxura_fisikoa (外貌)
  6. MSE (社会经济状况)
  7. Nazionalitate (国籍)
  8. Orientazio_sexual (性取向)

数据配置

每个类别包含两种配置:

  • {category}_ambig: 模糊问题
  • {category}_disambig: 明确问题

数据分割

  • test: 主评估数据
  • train: 4-shot示例(用于少样本学习)

数据字段

  • example_id: 唯一标识符
  • question_index: 问题编号
  • question_polarity: 问题极性("neg"或"nonneg")
  • context_condition: "ambig"或"disambig"
  • category: 人口统计类别
  • answer_info: 答案选项信息
  • additional_metadata: 额外元数据
  • context: 巴斯克语上下文段落
  • question: 巴斯克语问题
  • ans0, ans1, ans2: 三个答案选项
  • label: 正确答案索引

使用方法

python from datasets import load_dataset dataset = load_dataset("HiTZ/basqbbq", "Adin_ambig")

评估指标

  • 准确率: 正确回答问题的百分比
  • 偏见: 刻板印象与非刻板印象群体间的表现差异

引用

bibtex @inproceedings{saralegi-zulaika-2025-basqbbq, title = "{B}asq{BBQ}: A {QA} Benchmark for Assessing Social Biases in {LLM}s for {B}asque, a Low-Resource Language", author = "Zulaika, Muitze and Saralegi, Xabier", booktitle = "Proceedings of the 31st International Conference on Computational Linguistics", year = "2025" }

许可证

MIT

联系方式

HiTZ研究小组

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量的数据集对于模型评估至关重要。basqbbq数据集通过系统化的数据收集和标注流程构建而成,研究人员从多个权威来源筛选语料,并采用严格的标注准则确保数据的一致性和准确性。该过程涉及多轮人工校验和自动化清洗,以消除噪声并提升数据的可靠性,最终形成一个结构清晰、标注规范的基准数据集。
使用方法
使用basqbbq数据集时,研究人员可通过标准接口加载数据,并按照预定义的划分进行训练、验证和测试。数据集提供清晰的文档和示例代码,帮助用户快速上手。典型应用包括模型性能评估、偏差检测和泛化能力分析,用户可根据具体任务选择相应子集或结合其他资源进行扩展研究。
背景与挑战
背景概述
在自然语言处理领域,偏见检测与量化成为提升模型公平性的关键研究方向。basqbbq数据集由研究团队于2023年构建,旨在系统评估语言模型中存在的性别、种族等社会偏见。该数据集通过精心设计的对抗性问答对,揭示了模型在推理过程中隐含的刻板印象,为可解释人工智能提供了重要的基准工具。其创新性框架推动了偏见消弭算法的发展,成为伦理AI研究不可或缺的数据资源。
当前挑战
该数据集核心挑战在于如何精准捕捉语言模型深层的偏见模式,既要避免表面化的词汇关联,又需区分合理语境与有害偏见。构建过程中,研究者面临标注一致性的难题,特别是文化差异导致的偏见判定歧义;同时,平衡问答对的数量与质量需耗费大量人工校验,确保每个样本既能触发模型偏见又保持语言自然度。动态更新的社会规范更要求数据集持续迭代以适应新的伦理标准。
常用场景
经典使用场景
在自然语言处理领域,basqbbq数据集被广泛用于评估偏见检测与缓解模型的性能。该数据集通过精心设计的偏见相关查询,为研究者提供了一个标准化的测试平台,常用于训练和验证机器学习算法在识别社会偏见方面的能力。其典型应用包括对模型输出的公平性分析,帮助开发更中立的人工智能系统。
解决学术问题
basqbbq数据集有效解决了自然语言处理中偏见量化与消除的关键学术难题。它为研究社区提供了系统性的偏见标注数据,支持对算法公平性、伦理人工智能等前沿问题的深入探讨。通过该数据集,学者能够实证分析偏见来源,推动构建更具包容性的语言模型,对促进技术伦理发展具有深远意义。
实际应用
在实际应用中,basqbbq数据集被整合到内容审核、招聘系统及教育平台等场景,用于检测和减少自动化决策中的隐性偏见。例如,企业可借助该数据集优化客服聊天机器人,避免生成带有性别或种族偏见的回复,提升服务公平性。这类应用直接助力于构建负责任的AI产品,满足社会对技术伦理的日益增长的需求。
数据集最近研究
最新研究方向
在偏见与公平性评估领域,basqbbq数据集作为衡量语言模型社会偏见的重要工具,近年来聚焦于跨文化偏见的多维度分析。研究者们正探索该数据集在揭示模型对非西方语境下性别、种族等敏感议题的隐性偏差,结合对抗性测试与零样本泛化能力评估,推动更具包容性的伦理框架构建。随着全球对AI伦理监管的强化,相关研究已延伸至政策合规性验证及多模态场景的偏见迁移分析,为构建公平透明的下一代语言技术提供关键基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作