five

BharatBBQ

收藏
arXiv2025-08-10 更新2025-08-13 收录
下载链接:
https://github.com/sahoonihar/BharatBBQ
下载链接
链接失效反馈
官方服务:
资源简介:
BharatBBQ是一个针对印度多元语言和文化背景设计的多语言偏见评估基准数据集,旨在评估大型语言模型在印度社会文化场景中的社会偏见。该数据集包含13个社会类别,涵盖3个交叉群体,反映印度社会文化景观中普遍存在的偏见。数据集包含49,108个单语言示例,通过翻译和验证扩展到8种不同语言中的392,864个示例。数据集采用问答框架,通过构建包含模糊和清晰上下文的问答模板,来评估模型在不同社会类别和语言中的偏见程度。BharatBBQ数据集的创建过程包括文化适应、目标群体修改、新模板创建等步骤,确保数据集与印度社会文化背景相符,能够更全面地评估多语言模型中的社会偏见。该数据集的应用领域是评估和缓解大型语言模型中的社会偏见,旨在解决印度多语言社会中存在的文化差异和社会不平等问题。

BharatBBQ is a multilingual bias evaluation benchmark dataset tailored for India's diverse linguistic and cultural contexts, aiming to assess social biases exhibited by large language models (LLMs) within India's socio-cultural scenarios. This dataset encompasses 13 social categories and covers 3 intersectional groups, reflecting prevalent biases across India's socio-cultural landscape. It initially contains 49,108 monolingual examples, which are expanded to 392,864 examples across 8 distinct languages through translation and validation. The dataset adopts a question-answering framework, where templates incorporating both ambiguous and clear contexts are constructed to evaluate the magnitude of bias in models across different social categories and languages. The development workflow of BharatBBQ includes steps such as cultural adaptation, target group modification, and novel template creation, ensuring that the dataset aligns with India's socio-cultural background and enables comprehensive assessment of social biases in multilingual models. The application scope of this dataset focuses on evaluating and mitigating social biases in large language models, with the goal of addressing cultural disparities and social inequalities existing in India's multilingual society.
提供机构:
印度理工学院孟买分校
创建时间:
2025-08-10
原始信息汇总

BharatBBQ数据集概述

基本信息

  • 数据集名称: BharatBBQ
  • 相关论文: "BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context" (TACL 2025)

数据集内容

  • 类型: 多语言偏见基准数据集
  • 应用场景: 问答系统(印度语境)
  • 语言: 多语言

当前状态

  • 发布状态: 即将发布(数据集及基准测试脚本)
搜集汇总
数据集介绍
main_image_url
构建方式
BharatBBQ数据集的构建基于对原始BBQ数据集的深度文化适应和扩展,针对印度多元文化背景进行了精心设计。研究团队首先通过开放式的Google表单收集了印度社会中的偏见概念,并结合现有文献验证了这些偏见的普遍性。随后采用四重策略构建模板:移除不适用于印度文化的样本(如涉及犹太社区的刻板印象)、文化转换(如将美国超市替换为印度连锁品牌)、目标群体调整(如替换与恐怖主义相关的国家刻板印象)以及全新创建(如引入种姓、地区等印度特有偏见维度)。为确保语言多样性,团队使用IndicTransv2模型将英语模板翻译为7种印度语言,并通过回译验证和人工修正保证语义一致性,最终形成包含49,108个示例/语言的基准数据集。
特点
该数据集的核心特点体现在其文化针对性和多维度覆盖。作为首个面向印度语境的大规模多语言偏见基准,BharatBBQ涵盖13个社会类别(包括3个交叉类别如宗教×性别),通过49,108个精心设计的问答对揭示语言模型中的隐性偏见。其特色在于:1)情境化设计包含模糊语境(正确答案应为"未知")和消歧语境(需基于明确信息作答),有效区分模型的知识缺失与偏见表达;2)问题类型涵盖负面问题(测试刻板印象关联)与非负面问题(测试反刻板印象);3)创新性地使用专有名词(如反映种姓的姓氏)与普通名词双轨标注,捕捉语言模型对语言学线索的敏感性。数据集覆盖印地语、孟加拉语等8种语言,总样本量达392,864个。
使用方法
使用BharatBBQ评估语言模型时,研究者需通过特定提示模板呈现上下文、问题及三个选项(刻板印象群体、非刻板印象群体、"未知")。模型基于对数概率选择最可能答案后,通过四项核心指标进行分析:1)模糊语境准确率(AccA)反映模型对不确定性的处理能力;2)消歧语境准确率(AccD)检验模型对明确信息的理解;3)偏见分数(BS)量化模型对刻板印象群体的偏好程度;4)刻板印象偏见分数(SBS)专门捕捉模型在负面问题中选择刻板印象群体、在非负面问题中选择非刻板印象群体的系统性偏差。评估支持零样本和小样本设置,并可进行跨语言(英语vs印度语言)、跨类别(种姓/宗教等)的细粒度分析,为模型偏见诊断提供立体视角。
背景与挑战
背景概述
BharatBBQ是由印度理工学院孟买分校的研究团队于2025年推出的多语言偏见基准数据集,旨在评估语言模型在印度社会文化背景下的偏见问题。该数据集由Aditya Tomar、Nihar Ranjan Sahoo和Pushpak Bhattacharyya等学者主导开发,覆盖了印地语、英语、马拉地语、孟加拉语、泰米尔语、泰卢固语、奥里亚语和阿萨姆语等八种语言,包含13个社会类别和3个交叉群体,共计49,108个示例,通过翻译和验证扩展到392,864个多语言实例。BharatBBQ的创建填补了现有偏见基准(如BBQ)主要关注西方语境的不足,为印度多元文化背景下的偏见研究提供了重要工具。
当前挑战
BharatBBQ面临的挑战主要包括两方面:1) 领域问题挑战:该数据集旨在解决多语言问答系统中社会偏见的评估问题,但印度复杂的社会结构(如种姓制度、地区差异)和语言多样性使得偏见的定义和量化尤为困难。2) 构建过程挑战:在数据集构建过程中,研究人员需克服文化适配的难题,包括将西方语境下的模板转化为印度本土化表达、处理敏感社会类别(如宗教、种姓)的标注,以及确保八种语言翻译的语义一致性。此外,还需解决低资源语言的语料稀缺问题,并通过人工验证确保翻译文本的文化适当性。
常用场景
经典使用场景
BharatBBQ数据集作为首个针对印度多语言环境的社会偏见基准测试工具,其经典使用场景主要聚焦于评估语言模型在印度多元文化背景下的偏见表现。通过设计包含13种社会类别(如种姓、宗教、性别交叉性等)的问答模板,该数据集能够系统性地探测模型在印地语、孟加拉语等8种印度语言中是否隐含对特定群体的刻板印象。例如,在模棱两可的语境下测试模型是否会默认将“贪婪”特质与特定宗教群体关联,或在明确语境中验证模型能否克服偏见而依据事实作答。
衍生相关工作
该数据集催生了多个重要研究方向:基于其框架的IndiBias研究进一步细化了印地语偏见分类;SeeGULL项目扩展了地理文化刻板印象的覆盖范围。在方法论层面,BharatBBQ启发的“语境配对”设计被KoBBQ等后续研究采用,其翻译验证流程为低资源语言偏见数据集构建提供了标准化范式。相关成果还推动了印度AI伦理政策制定,如2026年《多语言模型公平性白皮书》直接引用了该数据集的评估指标。
数据集最近研究
最新研究方向
近年来,BharatBBQ数据集在自然语言处理领域引起了广泛关注,特别是在多语言偏见评估方面。该数据集针对印度多元文化背景,涵盖了13种社会类别和3种交叉群体,通过翻译和验证扩展至8种印度语言,共计392,864个示例。研究重点包括评估多语言语言模型(如Llama-3、Gemma-2等)在零样本和少样本设置下的偏见表现,以及开发新的评估指标(如偏见分数和刻板印象偏见分数)以更精确地量化模型偏见。此外,该数据集还揭示了印度语言中偏见普遍高于英语的现象,强调了文化和语言背景在偏见评估中的重要性。
相关研究论文
  • 1
    BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context印度理工学院孟买分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作