RupeeBias

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/rupeebiasneurips2026/RupeeBias

下载链接

链接失效反馈

官方服务：

资源简介：

RupeeBias是一个用于审计大型语言模型在补偿建议中是否存在人口统计偏见的匹配反事实提示数据集，专注于印度语境。该数据集包含五个任务场景（薪资估算、薪资增长估算、反报价推荐、服务定价供应商和服务定价客户）和两种语言（英语和Hinglish），共计39,150个提示。每个任务中的基础配置文件在人口统计标识符之间复制，仅改变人口统计标识短语以进行受控比较。数据集覆盖六个人口统计轴（宗教、种姓、地区、性别、残疾和城乡位置），旨在评估模型在不同人口统计群体下是否产生不平等的经济输出。所有提示均为合成生成，不包含真实个人数据。该数据集适用于偏见审计、模型比较和偏见缓解研究，但不应用于实际雇佣或补偿决策。

RupeeBias is a matched counterfactual prompt dataset for auditing demographic biases in compensation suggestions by large language models, focusing on the Indian context. The dataset contains five task scenarios (salary estimation, salary raise estimation, counteroffer recommendation, service pricing vendor, and service pricing customer) and two languages (English and Hinglish), totaling 39,150 prompts. Base profiles within each task are copied across demographic identifiers, changing only the demographic identifier phrases for controlled comparison. The dataset covers six demographic axes (religion, caste, region, gender, disability, and urban-rural location) to assess whether models produce unequal economic outputs across demographic groups. All prompts are synthetically generated and contain no real personal data. The dataset is suitable for bias auditing, model comparison, and bias mitigation research but should not be used for actual hiring or compensation decisions.

创建时间：

2026-05-06

原始信息汇总

RupeeBias 数据集详情

数据集概述

RupeeBias 是一个用于审计大语言模型在薪酬推荐中是否存在人口统计偏见的配对反事实提示词集合。该数据集专门设计用于在印度背景下，对与薪酬相关的建议进行受控的人口统计偏见评估。数据集包含 39,150 个提示词，涵盖五种任务场景和两种语言。

任务配置

数据集包含五个子任务，每个子任务都有明确的模型输出格式：

任务名称	描述	模型输出格式
`salary_estimation`	对参加校园招聘的应届生进行薪资预估	年度总薪酬（印度卢比）
`salary_increment_estimation`	对现有员工的薪资涨幅进行预估	百分比涨幅
`counter_offer_recommendation`	收到工作录用通知后的反报价推荐	反报价总薪酬（印度卢比）
`service_pricing_vendor`	当人口统计标识指向服务提供方时的服务定价推荐	项目价格（印度卢比）
`service_pricing_client`	当人口统计标识指向客户时的服务定价推荐	项目价格（印度卢比）

语言

语言	代码	描述
英语	`en`	标准印度英语提示词
印地英语混合语	`hinglish`	罗马化印地语-英语代码混合提示词，反映印度常见的数字沟通模式

人口统计维度

数据集使用与印度社会身份相关的六个人口统计维度：

维度	标识符数量	示例标识符	规范对照对
宗教	12	印度教、穆斯林、基督教、锡克教、耆那教	印度教 ↔ 穆斯林
种姓	24	婆罗门、达利特、OBC、查马尔、巴尼亚	婆罗门 ↔ 查马尔
地区	30	古吉拉特、孟加拉、泰米尔、桑塔尔、克什米尔	古吉拉特 ↔ 桑塔尔
性别	5	男性、女性、跨性别男性、跨性别女性、非二元	男性 ↔ 女性
残疾	11	无残疾、视力障碍、智力障碍	无残疾 ↔ 智力障碍
城乡位置	5	一线城市、二线城市、小镇、村庄	一线城市 ↔ 村庄

人口统计标识符仅用作反事实审计变量，而非真实个体的标签。

数据集构成

任务	语言	行数
`salary_estimation`	英语	4,698
`salary_estimation`	印地英语混合语	4,698
`salary_increment_estimation`	英语	7,047
`salary_increment_estimation`	印地英语混合语	7,047
`counter_offer_recommendation`	英语	4,698
`counter_offer_recommendation`	印地英语混合语	4,698
`service_pricing_vendor`	英语	1,566
`service_pricing_vendor`	印地英语混合语	1,566
`service_pricing_client`	英语	1,566
`service_pricing_client`	印地英语混合语	1,566

基础档案

薪资预估 (`salary_estimation`)

评估对计算机科学学士应届生的薪资推荐。基础档案按院校和绩点变化：

院校：IIT Delhi、BITS Pilani、NIT Surathkal、VIT Vellore、MNIT Jaipur、Thapar Institute
院校所有权：公立、私立
院校层级：精英、中等、较低
绩点：9.1、7.2、5.8

共18个基础档案：6所院校 × 3个绩点值。

薪资涨幅预估 (`salary_increment_estimation`)

评估对软件工程师的年度薪资涨幅推荐：

经验：2年、5年、8年
公司：TCS、Flipkart、Google India
绩效等级：强、中等、弱
输出：薪资涨幅百分比

反报价推荐 (`counter_offer_recommendation`)

评估收到工作录用通知后的反报价金额推荐：

经验：2年、5年、8年
公司：TCS、Flipkart、Google India
报价强度：低价、市场价、高于市场价
输出：反报价总薪酬（印度卢比）

服务定价—供应商 (`service_pricing_vendor`)

评估当人口统计标识指向供应商时的自由职业项目定价推荐：

服务类型：网站开发、安卓应用开发、SEO优化
评分等级：高、中、低
评分：4.9、4.7、3.8
输出：项目总价（印度卢比）

服务定价—客户 (`service_pricing_client`)

评估当人口统计标识指向客户时的自由职业项目定价推荐：

服务类型：网站开发、安卓应用开发、SEO优化
评分等级：高、中、低
评分：4.9、4.7、3.8
输出：项目总价（印度卢比）

数据模式

每条数据行包含以下公共字段：

字段	类型	描述
`id`	字符串	稳定行标识符
`task`	字符串	任务名称
`language`	字符串	提示词语种：`en` 或 `hinglish`
`axis`	字符串	人口统计维度
`identifier_value`	字符串	人口统计标识符值
`identifier_phrase`	字符串	插入提示词中的完整标识短语
`profile_id`	字符串	基础档案标识符
`question_variant_id`	字符串	问题变体标识符
`question_variant`	字符串	问题文本
`prompt`	字符串	发送给模型的完整提示词
`model_response`	字符串或空值	模型响应（评估后填充）

任务特定字段包括 institution、ownership、cgpa、company、experience、achievement_level、current_ctc、service_description、rating、rating_phrase、offered_ctc 和 offer_strength 等变量。

质量验证

数据集构建通过程序化检查进行验证，包括模式一致性检查、提示词模板变量替换检查、人口统计维度标识覆盖检查、语言条件检查以及模型评估后的响应格式检查。

模型输出需遵循严格的数值格式：

任务	要求格式
`salary_estimation`	`### <数字> INR`
`salary_increment_estimation`	`### <数字> %`
`counter_offer_recommendation`	`### <数字> INR`
`service_pricing_vendor`	`### <数字> INR`
`service_pricing_client`	`### <数字> INR`

生成后验证检查可解析性、缺失值、拒绝回答、截断、范围、解释和非标准单位。

隐私与个人数据

RupeeBias 不包含任何真实个人的个人数据。所有提示词均为合成数据，由模板生成。人口统计标识符是用于审计目的的类别标签，并非个人记录或分配给真实个体的属性。

预期用途

审计大语言模型薪酬推荐中的人口统计偏见
评估模型在受控反事实条件下是否产生不平等的经济输出
复现伴随论文中报告的偏见指标
比较模型、提示策略、安全指令和推理设置
支持偏见缓解和问责研究

非预期用途

不得用于做出真实的就业、薪酬、招聘、晋升、定价、贷款或录取决定
不得用于估算真实个人的适当薪资或价格
不得用于推断不同人口统计群体的优点、生产力、技能、市场价值或经济权利
不得用于证明基于种姓、宗教、地区、性别、残疾或城乡类别的区别对待
不得用于训练或部署基于受保护或敏感属性个性化薪酬建议的系统

局限性

印度特定范围：人口统计维度、劳动力市场示例、机构、公司和货币均针对印度背景
合成提示词：衡量受控模板条件下的模型行为，可能无法捕捉真实薪酬对话的所有特征
仅限显式标识符：测试显式人口统计短语，而非姓名、姓氏、口音、地点或方言线索等隐式信号
有限的语言覆盖：仅包含英语和印地英语混合语
无基准薪资标签：不声称任何模型输出是客观上正确的薪酬推荐
提示词模板依赖性：结果可能因替代措辞、更长对话、更丰富简历或不同系统提示而变化
非穷尽性人口统计覆盖：标识符列表不代表所有印度社区、身份、地区群体、残疾或社会经济类别

伦理考量

RupeeBias 使用与印度敏感和历史边缘化群体相关的人口统计标识符。这些标识符仅用于审计LLM在提示词仅在人口统计参照上存在差异时是否产生不平等的经济输出。所有提示词均为合成数据，不包含真实个人的个人数据。

关键风险在于基准测试结果可能被误读为反映不同人口统计群体在优点、生产力、市场价值或适当薪酬方面的真实差异。这种解读将是不正确且有害的。基准测试比较仅在人口统计标识符上存在差异的配对提示词；模型输出中测量的差异应被解释为模型缺陷，而非提示词中代表的人口统计群体的属性。

搜集汇总

数据集介绍

构建方式

RupeeBias数据集的构建基于程序化模板生成技术，通过将人口统计标识短语、基准职业档案、问题变体与语言条件进行组合，形成大量反事实提示对。基准档案涵盖薪资估算、薪资涨幅、反要约推荐及服务定价等五种任务场景，每种场景均包含英语与印地语英语混合（Hinglish）两个语言版本。在每一对反事实比较中，所有任务相关要素保持恒定，仅改变人口统计标识短语，从而实现对模型偏见行为的精准审计。数据集共包含39,150条提示，覆盖宗教、种姓、地区、性别、残疾及城乡区位六个人口统计维度，标识符数量从5至30不等，确保对印度社会多元身份的全面代表。

特点

该数据集的核心特点在于其精细的反事实设计与多任务覆盖。每个提示对仅在人口统计标识上存在差异，而职业背景、教育水平、工作经验等控制变量完全一致，从而能够隔离并量化模型在薪酬建议中的群体间差异。数据集同时提供英语与Hinglish两种语言版本，后者通过罗马化印地语-英语代码混合模拟印度数字通信的真实模式，增强了评估的生态效度。此外，严格的质量验证流程包括模板变量替换检查、标识符覆盖度审计以及模型输出格式解析，确保数据的可靠性与可复现性。

使用方法

使用者可通过HuggingFace Datasets库加载RupeeBias的五个配置子集，每个子集均包含英语与Hinglish两种语言拆分。典型应用流程为：将提示字段输入目标大语言模型，收集结构化响应后，依据任务格式要求（如“### <NUM> INR”或“### <NUM> %”）解析数值输出，然后对比同一基准档案下不同人口统计标识对应的模型回复，计算群体间差距指标。数据集支持多模型、多提示策略、安全指令及推理设置的比较分析，为偏见缓解与责任研究提供标准化评估平台。

背景与挑战

背景概述

RupeeBias数据集诞生于人工智能公平性评估与印度社会结构交织的学术前沿，由关注语言模型社会影响的研究团队于近年创建。该数据集旨在系统性地审计大语言模型在薪酬建议任务中是否存在基于人口统计学标识符的歧视性输出，填补了现有偏差检测基准多集中于西方语境、忽视印度多元社会维度的空白。通过涵盖宗教、种姓、地区、性别、残障及城乡区位六类社会显著身份轴线，并融合英语与印地语-英语混合语（Hinglish）两种语言模态，RupeeBias为量化评估模型在印度经济场景下的群际差异提供了严谨的反事实框架，对推动公平机器学习与负责任的人工智能部署具有重要的方法论价值。

当前挑战

核心挑战在于如何精准捕获并量化语言模型在薪酬决策中隐性的系统性偏差。领域问题层面，现有评估体系较少关注经济推荐任务中的多重身份交叉效应，且印度特有的种姓与宗教等社会分层为偏差检测引入了复杂语境。数据集构建过程中面临三大技术难点：一是需设计可完全对等替换的反事实提示模板，确保除身份标识符外所有职业背景信息严格一致，以隔离偏差来源；二是Hinglish双语提示需兼顾自然口语化与语义等价性，经三轮独立人工校验并通过接近完美的一致性检验（PABAK≥0.96）；三是需建立严格的输出格式规则（如指定货币单位与数值标记符）以应对模型拒绝回答、数值截断或非标准单位等多样性响应问题。

常用场景

经典使用场景

RupeeBias数据集的设计初衷在于为大型语言模型在薪酬推荐场景中的人口统计偏见提供可控的反事实评估框架。研究者通过构建仅在人口标识符上存在差异的匹配提示对，系统性地考察模型针对印度社会中具有显著社会意义的六大人口轴——宗教、种姓、地域、性别、残疾状况及城乡区位——所输出的经济建议是否存在系统性差异。该数据集覆盖五大任务设置，包括应届生薪资估算、现职员工调薪幅度预测、薪资反要约建议、以及面向服务提供方和客户的定价推荐，每条提示均以精确的印度卢比金额或百分比作为输出格式，便于开展定量分析与跨模型比较。

衍生相关工作

围绕RupeeBias已衍生出若干具有影响力的研究方向，其中最具代表性的工作包括基于该数据集开发的多维度偏见可视化分析工具，以及针对种姓和宗教轴线的深度案例研究。研究者利用该基准对比了不同规模、架构及训练策略的模型在印度薪酬场景下的表现差异，并探索了提示工程方法（如系统安全指令、理由链推理）对缓解经济建议偏见的有效性。此外，该数据集催生了将反事实公平性审计拓展至其他发展中国家的跨文化比较工作，以及针对隐形偏见信号（如姓名、口音）的衍生数据集构建，逐步形成了以印度社会分层为切入点的语言模型经济公平性研究脉络。

数据集最近研究