StereoBias
收藏arXiv2025-07-02 更新2025-07-04 收录
下载链接:
https://github.com/aditya20t/StereotypeAsCatalystForBias
下载链接
链接失效反馈官方服务:
资源简介:
StereoBias数据集是专为检测偏见和刻板印象而创建的,包含5012个句子,这些句子被标注为五个类别中的偏见和刻板印象:宗教、性别、社会经济地位、种族和职业,其余类型的偏见被标记为“其他”。数据集由 StereoSet 和 Crows-Pairs 数据集的句子组成,经过三个标注者的独立标注,最终通过多数投票确定标签。该数据集旨在帮助研究模型在偏见和刻板印象检测方面的性能,并为构建更公平和有效的AI系统提供支持。
The StereoBias dataset was specifically created for bias and stereotype detection. It contains 5,012 sentences annotated for biases and stereotypes across five categories: religion, gender, socioeconomic status, race, and occupation, while other types of biases are labeled as "Other". The dataset is compiled from sentences sourced from the StereoSet and Crows-Pairs datasets, which underwent independent annotation by three annotators, with final labels determined via majority voting. This dataset aims to assist research on model performance in bias and stereotype detection, and provide support for building more equitable and effective AI systems.
提供机构:
印度理工学院孟买分校, 印度IBM研究院
创建时间:
2025-07-02
原始信息汇总
StereotypeAsCatalystForBias数据集概述
基本信息
- 数据集名称:StereotypeAsCatalystForBias
- 托管平台:GitHub
数据集描述
(注:根据提供的README内容,该数据集未包含具体描述信息)
搜集汇总
数据集介绍

构建方式
StereoBias数据集的构建过程体现了严谨的学术规范与多维度标注策略。研究团队从StereoSet和Crows-Pairs两个基准数据集中精选具有代表性的语句,通过系统化的标注流程确保数据质量。具体而言,针对Crows-Pairs的sent_more语句和StereoSet的语境关联测试(CATs)内容,采用三重独立标注机制,由计算机科学、语言学等不同背景的专家进行交叉验证。标注过程中建立了详细的指导手册,通过定期讨论解决分歧,最终采用多数表决确定标签,其Fleiss' Kappa系数达到0.6239(偏见标注)和0.7714(刻板印象标注),显示标注者间具有高度一致性。数据集最终包含5,012条语句,按72:8:20的比例划分为训练集、验证集和测试集,并涵盖宗教、性别等五大社会维度及综合类别。
特点
该数据集的核心价值在于其双重标注体系和细粒度分类架构。每个语句均同步标注偏见和刻板印象标签,形成四元分类空间:(1)无偏见无刻板印象(2)有偏见无刻板印象(3)无偏见有刻板印象(4)二者兼具。这种设计首次实现了对两种社会认知偏差的关联性研究。数据分布呈现典型的长尾特征,如图2所示,其中同时包含两种负面属性的样本占比约17%,为研究二者的共生关系提供了充足样本。特别值得注意的是,数据集覆盖种族、职业等敏感维度时,通过专家标注有效规避了源数据集中存在的标注噪声问题(Blodgett et al., 2021),其类别平衡性较现有基准提升显著。
使用方法
该数据集支持三种前沿研究范式:单任务学习(STL)可分别训练偏见或刻板印象检测模型;共享参数的多任务学习(Shared-MTL)通过共享Transformer编码层配合独立分类头实现联合训练;全多任务学习(Full-MTL)则将问题重构为四分类任务。实验表明,RoBERTa-large在Shared-MTL模式下取得最佳效果(偏见检测F1=0.7742),而Full-MTL更适合解码器架构如Mistral-7B(F1=0.8877)。使用时应特别注意数据分布的群体差异性,建议结合跨数据集验证(如ToxicBias+BABE)来评估模型泛化能力。对于大语言模型微调,推荐采用QLoRA技术以4bit量化降低计算开销,其LoRA配置建议秩为16、alpha=8、dropout=0.01。
背景与挑战
背景概述
StereoBias数据集由印度理工学院孟买分校和IBM印度研究院的研究团队于2025年创建,旨在解决自然语言处理领域中语言模型的偏见和刻板印象检测问题。该数据集包含5012个句子,覆盖宗教、性别、社会经济地位、种族和职业等五大类别,为研究偏见与刻板印象之间的复杂关系提供了重要资源。其多任务学习框架的创新设计显著提升了偏见检测的准确率,为构建更公平的AI系统提供了新的方法论支持。
当前挑战
该数据集面临的核心挑战包括:1) 在领域问题层面,语言模型中的偏见往往与深层次的社会刻板印象交织,需要同时识别显性偏见和隐性文化偏见;2) 在构建过程中,标注工作面临主观性强的问题,即使经过严格培训的标注者间Fleiss' Kappa系数也仅达到0.62-0.77;3) 数据来源主要基于西方语境,在跨文化泛化性方面存在局限;4) 模型训练时需要平衡多任务学习的参数共享与特定任务的精度要求。
常用场景
经典使用场景
在自然语言处理领域,StereoBias数据集被广泛应用于检测语言模型中的偏见和刻板印象。该数据集通过多任务学习框架,联合训练偏见检测和刻板印象识别任务,显著提升了模型性能。其标注覆盖宗教、性别、社会经济地位、种族和职业等五大敏感类别,为研究偏见与刻板印象的关联性提供了丰富语料。
解决学术问题
该数据集有效解决了AI系统中隐性偏见难以量化的问题,通过构建联合标注框架,揭示了刻板印象与语言偏见的共生关系。实验证明多任务学习可使偏见检测的F1值提升13.92%,为构建公平AI提供了方法论突破。其创新性的四分类标注体系(偏见/刻板印象的组合状态)深化了对二者交互机制的理解。
衍生相关工作
该数据集催生了多项重要研究,如基于QLoRA的轻量化偏见检测框架、跨文化偏见迁移学习模型IndiBias等。其标注范式被后续工作ToxicBias继承发展,提出的多任务架构启发了Badathala等人对隐喻识别任务的改进。Meta团队在Llama3开发中直接采用了该数据集的评估标准。
以上内容由遇见数据集搜集并总结生成



