five

resume-hiring-instability-runs-v1

收藏
Hugging Face2026-05-12 更新2026-05-13 收录
下载链接:
https://huggingface.co/datasets/bermaneh/resume-hiring-instability-runs-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“简历招聘不稳定性运行版本1”,旨在研究大型语言模型在模拟招聘决策任务中的输出不稳定性。它通过控制实验生成:以200份简历为基础,对每份简历施加31种不同的实验条件(包括基线、姓名扰动、简历章节顺序扰动和提示词改写扰动),并在每个条件下进行5次随机采样(K=5)。姓名扰动基于Gaddis (2017)的研究,用于探究姓名隐含的人口统计信息(如白人/黑人、男性/女性)对模型决策的影响。模型使用Qwen/Qwen3-32B,生成参数设置为温度0.6。数据集包含36,025个样本,每个样本有32个字段。核心字段包括简历标识符、实验条件、扰动索引、采样索引、分配的姓名人口统计组别、模型的完整输出、思维链内容、最终响应文本、二元化的招聘决策(1表示雇佣,0表示不雇佣)、模型表达的决策置信度,以及一系列指示模型在思维链中是否提及特定评估因素(如技能、经验、教育背景、工作匹配度、候选人姓名、地点、人口统计代理信息)的二进制标志字段。该数据集适用于分析LLM决策的稳定性、评估提示工程和输入扰动对输出的影响、研究决策中的潜在偏见,以及进行思维链内容的可解释性分析。

This dataset, named Resume Recruitment Instability Run Version 1, aims to study the output instability of large language models in simulated recruitment decision-making tasks. It is generated through a controlled experiment: based on 200 resumes, each resume is subjected to 31 different experimental conditions (including baseline, name perturbation, resume section order perturbation, and prompt rewriting perturbation), with 5 random samples (K=5) per condition. Name perturbation is based on Gaddis (2017) research to explore the impact of name-implied demographic information (e.g., White/Black, male/female) on model decisions. The model used is Qwen/Qwen3-32B, with generation parameters set to a temperature of 0.6. The dataset contains 36,025 samples, each with 32 fields. Core fields include resume identifier, experimental condition, perturbation index, sampling index, assigned name demographic group, models full output, chain-of-thought content, final response text, binarized recruitment decision (1 for hire, 0 for not hire), model-expressed decision confidence, and a series of binary flag fields indicating whether the model mentions specific evaluation factors (such as skills, experience, educational background, job fit, candidate name, location, demographic proxy information) in the chain-of-thought. This dataset is suitable for analyzing LLM decision stability, evaluating the impact of prompt engineering and input perturbations on outputs, studying potential biases in decisions, and conducting interpretability analysis of chain-of-thought content.
创建时间:
2026-04-30
原始信息汇总

数据集概述:resume-hiring-instability-runs-v1

该数据集是一个用于研究简历招聘决策稳定性的完整运行结果,由bermaneh在Hugging Face上发布。数据集基于200份简历、31种实验条件,每份简历在每种条件下生成5个样本,总计31,000行数据。模型使用Qwen3-32B,参数为温度T=0.6,每条件采样K=5,不注入地址信息。

扰动类型

数据集包含以下三种扰动类型:

  • name (Gaddis 2017):基于Gaddis 2017方法修改姓名。
  • section_order:调整简历章节顺序。
  • prompt_paraphrase:改写提示词。

数据特征

数据集包含32列,主要特征分类如下:

  • 基本标识
    • resume_id (string):简历唯一标识符。
    • condition (string):实验条件,可取baselineperturb_nameperturb_section_orderperturb_prompt
    • perturb_idx (int64):条件内扰动抽样的索引(从0开始)。
    • sample_idx (int64):样本索引(每条件、每简历、每扰动抽取5个样本)。
  • 简历属性
    • category (string):未提供描述。
    • name (string):未提供描述。
    • assigned_group (string):基准姓名的人口统计群体(如white_malefemaleblack_maleblack_female)。
    • assigned_address (null):未提供描述。
    • address_str (null):未提供描述。
  • 模型输出
    • model_response (string):模型完整输出(包含思考痕迹和最终回答)。
    • thinking (string):<think>块内的思考内容。
    • response (string):</think>之后的部分。
    • decision (int64):招聘决策,1=录用,0=不录用。
    • confidence (float64):模型表达的置信度,范围[0.0, 1.0]。
    • parse_ok (bool):是否成功解析决策和置信度。
    • finish_reason (string):vLLM的结束原因,可能为stoplength
  • 元数据
    • trace_tokens (int64):思考痕迹的词数。
    • response_tokens (int64):未提供描述。
    • r_skills (int64):二进制,思考痕迹中是否提及技能。
    • r_experience (int64):二进制,思考痕迹中是否提及经验。
    • r_education (int64):二进制,思考痕迹中是否提及教育。
    • r_job_fit (int64):二进制,思考痕迹中是否提及工作匹配度。
    • r_name (int64):二进制,思考痕迹中是否提及候选人姓名。
    • r_location (int64):二进制,思考痕迹中是否提及地点。
    • r_demographic_proxy (int64):二进制,思考痕迹中是否包含人口统计代理语言。
    • pos_skills (float64):未提供描述。
    • pos_experience (float64):未提供描述。
    • pos_education (float64):未提供描述。
    • pos_job_fit (float64):未提供描述。
    • pos_name (float64):未提供描述。
    • pos_location (float64):未提供描述。
    • pos_demographic_proxy (float64):未提供描述。

数据划分

  • 训练集 (train):36,025个样本,占用约369.19 MB,下载大小约141.85 MB。

生成参数

  • 模型:Qwen/Qwen3-32B
  • 温度:0.6
  • 最大令牌数:32768
  • 样本数:每条件每简历5个样本
  • 每类型数量:10
  • 实验名称:resume-hiring-instability
  • 任务ID:torch:7540308
  • 脚本:pipeline.py
  • 工件状态:最终版

数据集许可证

  • 许可证:MIT

使用方式

通过datasets库加载数据集,示例如下: python from datasets import load_dataset

dataset = load_dataset("bermaneh/resume-hiring-instability-runs-v1", split="train") print(f"Loaded {len(dataset)} rows")

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集旨在探索大语言模型在简历筛选任务中的决策稳定性,系统性地评估模型在面对细微扰动时的输出一致性。研究基于200份精心设计的简历,对每一份简历施加了31种不同的条件组合,涵盖姓名变更、简历模块顺序调整以及提示语释义三类扰动,每类扰动重复10次并采样5次,最终形成了逾3.6万条记录。生成过程中使用了Qwen3-32B模型,温度参数设为0.6,并明确排除地址信息注入以控制变量。所有模型的完整输出、思维链路及结构化解析结果均被完整保留,为分析模型决策的内在逻辑提供了翔实素材。
特点
数据集最显著的特点在于其精细的多维度扰动设计与丰富的可解释性分析指标。除基础的人职匹配、技能、经验等核心评判维度外,特别引入了思维轨迹中是否提及姓名、地点、人口统计学代理等二元标记,以及各维度在推理过程中的位置编码,从而能够量化分析模型在决策时关注焦点的动态变化。此外,每个样本均附带了模型表达的置信度分数与解析成功标志,使得研究者可以深入考察模型在面临信息扰动时的判断动摇程度与内部推理的稳定性。
使用方法
用户可通过HuggingFace的datasets库便捷地加载数据,仅需一行代码即可获取训练集。数据以32列的表格形式组织,包含从基础元数据到模型内部思维的完整字段。研究人员可以基于resume_id和condition字段进行纵向追踪,考察同一份简历在不同扰动下的决策差异;也可以利用thinking字段解析模型的推理链路,结合r_*与pos_*系列指标构建可解释性分析框架。数据集的每一条记录均源自完整的思考与回答过程,非常适合用于探究大语言模型推理可靠性、公平性评估及扰动敏感性研究等前沿课题。
背景与挑战
背景概述
随着大语言模型在自动化招聘系统中的广泛应用,其决策一致性与公平性问题日益凸显。该数据集由某研究团队于近期创建,依托Qwen3-32B模型,系统性地探究了简历评估中的决策不稳定性现象。核心研究问题聚焦于轻微扰动——如候选人姓名(基于Gaddis 2017种族感知研究)、简历章节顺序及提示词改写——是否会导致模型对同一简历的录用判断产生显著差异。数据集包含200份简历在31种条件下各5次采样的完整运行记录,共计31000条数据,为量化分析模型在招聘场景中的随机偏差与潜在歧视提供了高密度实验基础,对构建可信赖的自动化人才甄选系统具有重要参考价值。
当前挑战
该数据集直面的核心挑战在于揭示并量化大语言模型在招聘决策中的不稳定性。首先,领域层面需解决模型对非内容性因素(如候选人姓名隐含的人口统计学特征)的敏感性问题,这种敏感可能引发基于种族或性别的系统性雇佣偏差,从而违背公平就业原则。其次,构建过程中的挑战包括:设计能有效触发决策漂移的扰动类型(名称、章节顺序、提示措辞),在保持简历核心信息不变的前提下生成语义等价但形式不同的条件版本;还需在采样阶段确保统计可靠性,通过K=5次重复抽样捕获随机性分布,并构建解析管道从模型多轮输出中提取决策、置信度及推理轨迹字段,克服非结构化文本的解析歧义与格式不一致问题。
常用场景
经典使用场景
该数据集专为探究大语言模型在招聘决策中的稳定性与偏差而设计,其经典使用场景在于系统性地评估模型对简历输入中细微扰动所产生的决策波动。通过引入姓名替换、章节顺序调整以及提示语改写三类扰动,并结合多次采样,研究者能够精确量化模型在相同候选人信息下给出不同雇佣结论的频率与幅度,从而揭示算法决策中潜藏的不确定性与偶然性。
实际应用
在实际应用中,该数据集为人力资源技术公司提供了一个关键的测试基准,用于审核与优化其自动化简历筛选系统的鲁棒性与一致性。招聘平台可以利用这些数据来识别模型在哪些群体或文本特征上容易产生随机性偏差,从而针对性地调整模型参数或引入校准机制。此外,企业合规部门也能借助此类分析来确保其AI招聘工具符合劳动法规中关于公平雇佣的原则,降低因算法误判而引发的法律风险。
衍生相关工作
该数据集启发了多项关于大模型逻辑推理链与决策一致性之间关系的开创性研究。基于其丰富的‘思考痕迹’标注,衍生工作探索了模型在生成内部推理时是否真正关注了与岗位匹配度相关的核心要素,如技能与经验,抑或受到了无关的人口统计学线索干扰。另一些经典工作则利用此数据开发了新的评估指标,用以衡量语言模型在多次重复判断中的变异系数,推动了‘算法稳定性’这一评价维度的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作