RupeeBias
收藏RupeeBias 数据集详情
数据集概述
RupeeBias 是一个用于审计大语言模型在薪酬推荐中是否存在人口统计偏见的配对反事实提示词集合。该数据集专门设计用于在印度背景下,对与薪酬相关的建议进行受控的人口统计偏见评估。数据集包含 39,150 个提示词,涵盖五种任务场景和两种语言。
任务配置
数据集包含五个子任务,每个子任务都有明确的模型输出格式:
| 任务名称 | 描述 | 模型输出格式 |
|---|---|---|
salary_estimation |
对参加校园招聘的应届生进行薪资预估 | 年度总薪酬(印度卢比) |
salary_increment_estimation |
对现有员工的薪资涨幅进行预估 | 百分比涨幅 |
counter_offer_recommendation |
收到工作录用通知后的反报价推荐 | 反报价总薪酬(印度卢比) |
service_pricing_vendor |
当人口统计标识指向服务提供方时的服务定价推荐 | 项目价格(印度卢比) |
service_pricing_client |
当人口统计标识指向客户时的服务定价推荐 | 项目价格(印度卢比) |
语言
| 语言 | 代码 | 描述 |
|---|---|---|
| 英语 | en |
标准印度英语提示词 |
| 印地英语混合语 | hinglish |
罗马化印地语-英语代码混合提示词,反映印度常见的数字沟通模式 |
人口统计维度
数据集使用与印度社会身份相关的六个人口统计维度:
| 维度 | 标识符数量 | 示例标识符 | 规范对照对 |
|---|---|---|---|
| 宗教 | 12 | 印度教、穆斯林、基督教、锡克教、耆那教 | 印度教 ↔ 穆斯林 |
| 种姓 | 24 | 婆罗门、达利特、OBC、查马尔、巴尼亚 | 婆罗门 ↔ 查马尔 |
| 地区 | 30 | 古吉拉特、孟加拉、泰米尔、桑塔尔、克什米尔 | 古吉拉特 ↔ 桑塔尔 |
| 性别 | 5 | 男性、女性、跨性别男性、跨性别女性、非二元 | 男性 ↔ 女性 |
| 残疾 | 11 | 无残疾、视力障碍、智力障碍 | 无残疾 ↔ 智力障碍 |
| 城乡位置 | 5 | 一线城市、二线城市、小镇、村庄 | 一线城市 ↔ 村庄 |
人口统计标识符仅用作反事实审计变量,而非真实个体的标签。
数据集构成
| 任务 | 语言 | 行数 |
|---|---|---|
salary_estimation |
英语 | 4,698 |
salary_estimation |
印地英语混合语 | 4,698 |
salary_increment_estimation |
英语 | 7,047 |
salary_increment_estimation |
印地英语混合语 | 7,047 |
counter_offer_recommendation |
英语 | 4,698 |
counter_offer_recommendation |
印地英语混合语 | 4,698 |
service_pricing_vendor |
英语 | 1,566 |
service_pricing_vendor |
印地英语混合语 | 1,566 |
service_pricing_client |
英语 | 1,566 |
service_pricing_client |
印地英语混合语 | 1,566 |
基础档案
薪资预估 (salary_estimation)
评估对计算机科学学士应届生的薪资推荐。基础档案按院校和绩点变化:
- 院校:IIT Delhi、BITS Pilani、NIT Surathkal、VIT Vellore、MNIT Jaipur、Thapar Institute
- 院校所有权:公立、私立
- 院校层级:精英、中等、较低
- 绩点:9.1、7.2、5.8
共18个基础档案:6所院校 × 3个绩点值。
薪资涨幅预估 (salary_increment_estimation)
评估对软件工程师的年度薪资涨幅推荐:
- 经验:2年、5年、8年
- 公司:TCS、Flipkart、Google India
- 绩效等级:强、中等、弱
- 输出:薪资涨幅百分比
反报价推荐 (counter_offer_recommendation)
评估收到工作录用通知后的反报价金额推荐:
- 经验:2年、5年、8年
- 公司:TCS、Flipkart、Google India
- 报价强度:低价、市场价、高于市场价
- 输出:反报价总薪酬(印度卢比)
服务定价—供应商 (service_pricing_vendor)
评估当人口统计标识指向供应商时的自由职业项目定价推荐:
- 服务类型:网站开发、安卓应用开发、SEO优化
- 评分等级:高、中、低
- 评分:4.9、4.7、3.8
- 输出:项目总价(印度卢比)
服务定价—客户 (service_pricing_client)
评估当人口统计标识指向客户时的自由职业项目定价推荐:
- 服务类型:网站开发、安卓应用开发、SEO优化
- 评分等级:高、中、低
- 评分:4.9、4.7、3.8
- 输出:项目总价(印度卢比)
数据模式
每条数据行包含以下公共字段:
| 字段 | 类型 | 描述 |
|---|---|---|
id |
字符串 | 稳定行标识符 |
task |
字符串 | 任务名称 |
language |
字符串 | 提示词语种:en 或 hinglish |
axis |
字符串 | 人口统计维度 |
identifier_value |
字符串 | 人口统计标识符值 |
identifier_phrase |
字符串 | 插入提示词中的完整标识短语 |
profile_id |
字符串 | 基础档案标识符 |
question_variant_id |
字符串 | 问题变体标识符 |
question_variant |
字符串 | 问题文本 |
prompt |
字符串 | 发送给模型的完整提示词 |
model_response |
字符串或空值 | 模型响应(评估后填充) |
任务特定字段包括 institution、ownership、cgpa、company、experience、achievement_level、current_ctc、service_description、rating、rating_phrase、offered_ctc 和 offer_strength 等变量。
质量验证
数据集构建通过程序化检查进行验证,包括模式一致性检查、提示词模板变量替换检查、人口统计维度标识覆盖检查、语言条件检查以及模型评估后的响应格式检查。
模型输出需遵循严格的数值格式:
| 任务 | 要求格式 |
|---|---|
salary_estimation |
### <数字> INR |
salary_increment_estimation |
### <数字> % |
counter_offer_recommendation |
### <数字> INR |
service_pricing_vendor |
### <数字> INR |
service_pricing_client |
### <数字> INR |
生成后验证检查可解析性、缺失值、拒绝回答、截断、范围、解释和非标准单位。
隐私与个人数据
RupeeBias 不包含任何真实个人的个人数据。所有提示词均为合成数据,由模板生成。人口统计标识符是用于审计目的的类别标签,并非个人记录或分配给真实个体的属性。
预期用途
- 审计大语言模型薪酬推荐中的人口统计偏见
- 评估模型在受控反事实条件下是否产生不平等的经济输出
- 复现伴随论文中报告的偏见指标
- 比较模型、提示策略、安全指令和推理设置
- 支持偏见缓解和问责研究
非预期用途
- 不得用于做出真实的就业、薪酬、招聘、晋升、定价、贷款或录取决定
- 不得用于估算真实个人的适当薪资或价格
- 不得用于推断不同人口统计群体的优点、生产力、技能、市场价值或经济权利
- 不得用于证明基于种姓、宗教、地区、性别、残疾或城乡类别的区别对待
- 不得用于训练或部署基于受保护或敏感属性个性化薪酬建议的系统
局限性
- 印度特定范围:人口统计维度、劳动力市场示例、机构、公司和货币均针对印度背景
- 合成提示词:衡量受控模板条件下的模型行为,可能无法捕捉真实薪酬对话的所有特征
- 仅限显式标识符:测试显式人口统计短语,而非姓名、姓氏、口音、地点或方言线索等隐式信号
- 有限的语言覆盖:仅包含英语和印地英语混合语
- 无基准薪资标签:不声称任何模型输出是客观上正确的薪酬推荐
- 提示词模板依赖性:结果可能因替代措辞、更长对话、更丰富简历或不同系统提示而变化
- 非穷尽性人口统计覆盖:标识符列表不代表所有印度社区、身份、地区群体、残疾或社会经济类别
伦理考量
RupeeBias 使用与印度敏感和历史边缘化群体相关的人口统计标识符。这些标识符仅用于审计LLM在提示词仅在人口统计参照上存在差异时是否产生不平等的经济输出。所有提示词均为合成数据,不包含真实个人的个人数据。
关键风险在于基准测试结果可能被误读为反映不同人口统计群体在优点、生产力、市场价值或适当薪酬方面的真实差异。这种解读将是不正确且有害的。基准测试比较仅在人口统计标识符上存在差异的配对提示词;模型输出中测量的差异应被解释为模型缺陷,而非提示词中代表的人口统计群体的属性。




