IndiCASA
收藏arXiv2025-10-03 更新2025-11-20 收录
下载链接:
https://github.com/cerai-iitm/IndiCASA
下载链接
链接失效反馈官方服务:
资源简介:
IndiCASA数据集是一份针对印度社会文化背景下的大型语言模型(LLM)偏见评估的新颖数据集。该数据集包含2,575个人工验证的句子,涵盖了五个社会人口学维度:种姓、性别、宗教、残疾和社会经济地位。IndiCASA数据集旨在帮助LLM更好地理解印度社会文化中的细微偏见,从而提高模型的公平性和准确性。数据集的创建过程采用了人类专家与人工智能协作的方法,确保了数据的质量和多样性。IndiCASA数据集可用于评估LLM在印度语境下的偏见程度,并帮助开发者改进模型的公平性和文化敏感性。
提供机构:
印度理工学院马德拉斯分校
创建时间:
2025-10-03
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,文化偏见评估数据集的建设需要兼顾语言多样性与社会文化复杂性。IndiCASA数据集采用人机协同的构建方法,首先以IndiBias数据集为基础,通过多种大语言模型生成2575个句子变体,涵盖种姓、宗教、性别、残疾和社会经济地位五个维度。随后经过语言专家与社会科学家的双重验证,通过消除冗余、修正结构问题和增强文化相关性等步骤,确保每个句子在保持语义一致性的同时准确反映印度社会语境中的刻板印象与反刻板印象。
特点
该数据集在文化偏见评估领域展现出显著特色,其覆盖的五个社会维度精准对应印度社会结构中的核心议题。每个维度下的句子均构成最小对比对,仅通过关键身份标识词的替换实现刻板印象与反刻板印象的转换,这种设计既保持了语言结构的严谨性,又凸显了社会语义的微妙差异。数据集特别注重语境依赖性,相同身份词在不同语境中可能承载截然不同的社会含义,这种多层次表征为模型偏见评估提供了丰富的分析素材。
使用方法
在实践应用中,该数据集主要服务于对比学习框架下的编码器训练。研究者可将句子对输入编码器,通过NT-Xent等对比损失函数优化嵌入空间,使模型学会区分社会偏见表征。训练后的编码器能够将待评估语言模型的生成结果映射到语义空间,通过计算与标准刻板印象/反刻板印象句子的余弦相似度,实现基于嵌入相似性的偏见评分。这种评估方法不依赖模型内部参数,适用于开放权重与黑盒模型,为跨架构的公平性比较提供了统一基准。
背景与挑战
背景概述
IndiCASA数据集由印度理工学院马德拉斯分校负责任人工智能中心与德克萨斯大学达拉斯分校的研究团队于2025年联合创建,旨在解决大语言模型在印度多元文化背景下的隐性偏见评估难题。该数据集涵盖种姓、性别、宗教、残疾和社会经济地位五大人口统计维度,包含2575条经过人工验证的句子对,通过对比学习框架捕捉印度社会特有的文化刻板印象与反刻板印象表达。其创新性在于突破了西方中心主义的偏见评估范式,为南亚语境下的算法公平性研究提供了重要基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,需精准识别印度社会结构中流动的种姓层级与情境依赖的宗教偏见,这些细微差异常被传统嵌入方法忽略;在构建过程中,需克服文化特异性标注的复杂性,通过人机协作机制平衡标注效率与质量,同时确保社会科学家对敏感内容的专业验证,避免机器学习模型对边缘群体的误表征。
常用场景
实际应用
在实际应用层面,IndiCASA为印度本土的AI系统开发提供了重要的偏见检测标准。科技公司可利用该框架评估其对话系统、内容推荐算法和自动化决策工具中的社会偏见,特别是在教育、医疗和金融服务等关键领域。政府部门也可借助该工具监测公共服务AI系统中的公平性,促进技术普惠。此外,该数据集还为印度多语言环境下的内容审核系统提供了文化敏感的偏见识别基准。
衍生相关工作
基于IndiCASA数据集的研究催生了多个重要衍生工作。在方法论层面,其对比学习框架被扩展应用于其他南亚国家的偏见评估,如针对孟加拉国和巴基斯坦社会语境的偏见数据集构建。在技术应用方面,研究者开发了基于该数据集的实时偏见检测工具和模型微调方案。此外,该工作还启发了对印度方言偏见的研究,推动了多模态偏见检测框架的发展,为全球南方国家的AI伦理研究提供了重要范例。
以上内容由遇见数据集搜集并总结生成



