Stereotypes-in-LLMs/hiring-analyses-baseline-uk

Name: Stereotypes-in-LLMs/hiring-analyses-baseline-uk
Creator: Stereotypes-in-LLMs
Published: 2024-04-27 08:38:25
License: 暂无描述

Hugging Face2024-04-27 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/Stereotypes-in-LLMs/hiring-analyses-baseline-uk

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: candidate_id dtype: string - name: job_id dtype: string - name: CV dtype: string - name: Job Description dtype: string - name: Job Position dtype: string - name: lang dtype: string - name: protected_group dtype: string - name: protected_attr dtype: string - name: group_id dtype: string - name: decision dtype: string - name: feedback dtype: string - name: raw_ai_decision dtype: string splits: - name: gender num_bytes: 44520606 num_examples: 9000 - name: marital_status num_bytes: 11187777 num_examples: 2250 - name: military_status num_bytes: 11170804 num_examples: 2250 - name: religion num_bytes: 20051123 num_examples: 4050 - name: name num_bytes: 22263539 num_examples: 4500 - name: age num_bytes: 13293198 num_examples: 2700 download_size: 9833292 dataset_size: 122487047 configs: - config_name: default data_files: - split: gender path: data/gender-* - split: marital_status path: data/marital_status-* - split: military_status path: data/military_status-* - split: religion path: data/religion-* - split: name path: data/name-* - split: age path: data/age-* license: cc-by-4.0 ---

数据集信息：特征： - 名称：候选人ID 数据类型：字符串 - 名称：职位ID 数据类型：字符串 - 名称：CV 数据类型：字符串 - 名称：职位描述数据类型：字符串 - 名称：岗位名称数据类型：字符串 - 名称：语言数据类型：字符串 - 名称：受保护群体数据类型：字符串 - 名称：受保护属性数据类型：字符串 - 名称：群体ID 数据类型：字符串 - 名称：决策结果数据类型：字符串 - 名称：反馈意见数据类型：字符串 - 名称：原始AI决策结果数据类型：字符串拆分： - 名称：性别字节数：44520606 样本数：9000 - 名称：婚姻状况字节数：11187777 样本数：2250 - 名称：兵役状态字节数：11170804 样本数：2250 - 名称：宗教信仰字节数：20051123 样本数：4050 - 名称：姓名字节数：22263539 样本数：4500 - 名称：年龄字节数：13293198 样本数：2700 下载大小：9833292 数据集大小：122487047 配置： - 配置名称：默认数据文件： - 拆分：性别路径：data/gender-* - 拆分：婚姻状况路径：data/marital_status-* - 拆分：兵役状态路径：data/military_status-* - 拆分：宗教信仰路径：data/religion-* - 拆分：姓名路径：data/name-* - 拆分：年龄路径：data/age-* 许可证：cc-by-4.0

提供机构：

Stereotypes-in-LLMs

原始信息汇总

数据集概述

数据集特征

candidate_id: 数据类型 - 字符串
job_id: 数据类型 - 字符串
CV: 数据类型 - 字符串
Job Description: 数据类型 - 字符串
Job Position: 数据类型 - 字符串
lang: 数据类型 - 字符串
protected_group: 数据类型 - 字符串
protected_attr: 数据类型 - 字符串
group_id: 数据类型 - 字符串
decision: 数据类型 - 字符串
feedback: 数据类型 - 字符串
raw_ai_decision: 数据类型 - 字符串

数据集分割

gender: 字节数 - 44520606, 示例数 - 9000
marital_status: 字节数 - 11187777, 示例数 - 2250
military_status: 字节数 - 11170804, 示例数 - 2250
religion: 字节数 - 20051123, 示例数 - 4050
name: 字节数 - 22263539, 示例数 - 4500
age: 字节数 - 13293198, 示例数 - 2700

数据集大小

下载大小: 9833292 字节
数据集总大小: 122487047 字节

配置文件

config_name: default
- split: gender, 路径: data/gender-*
- split: marital_status, 路径: data/marital_status-*
- split: military_status, 路径: data/military_status-*
- split: religion, 路径: data/religion-*
- split: name, 路径: data/name-*
- split: age, 路径: data/age-*

许可证

cc-by-4.0

搜集汇总

数据集介绍

构建方式

在人工智能伦理研究领域，为深入探究大型语言模型在招聘场景中可能存在的偏见，该数据集通过模拟真实招聘流程构建而成。其构建过程精心设计了涵盖性别、婚姻状况、兵役状态、宗教信仰、姓名及年龄等多个受保护属性的候选者信息，并对应生成多样化的职位描述与简历文本。数据生成依托于自动化脚本，确保在控制其他变量的前提下，系统性地引入受保护属性变量，从而形成可用于偏见分析的对比样本。

特点

该数据集的核心特点在于其多维度的偏见分析框架，围绕六个关键的社会人口属性进行结构化组织。每个数据样本不仅包含候选人的简历与职位描述，还明确标注了受保护群体类别、具体属性以及模型生成的招聘决策与反馈。数据以分片形式存储，便于针对特定偏见维度进行独立或交叉分析，为量化评估模型在公平性方面的表现提供了细致且标准化的基准。

使用方法

研究人员可利用此数据集对大型语言模型在自动化招聘中的决策行为进行系统性评估。典型的使用方法包括加载特定偏见维度的数据分片，将简历与职位描述输入待评估模型，随后将模型输出与数据集中标注的基准决策进行对比分析。通过统计不同受保护群体间的决策差异，能够有效度量并揭示模型潜藏的偏见模式，进而推动开发更公平、更负责任的AI系统。

背景与挑战

背景概述

在人工智能伦理与公平性研究领域，大型语言模型（LLMs）在招聘决策中的潜在偏见问题日益引发关注。Stereotypes-in-LLMs/hiring-analyses-baseline-uk数据集由相关研究团队构建，旨在系统评估LLMs在模拟招聘场景中是否对不同受保护群体（如性别、婚姻状况、宗教等）产生歧视性倾向。该数据集聚焦于英国背景，通过结构化简历与职位描述配对，记录了模型生成的招聘决策及反馈，为核心研究问题——即量化并缓解LLMs在自动化人力资源应用中的社会偏见——提供了实证基础，对推动算法公平性与透明性研究具有重要影响力。

当前挑战

该数据集致力于应对招聘自动化中算法偏见的严峻挑战，其核心在于检测并减少LLMs基于受保护属性（如性别、年龄、宗教等）做出的歧视性决策。构建过程中的挑战包括：如何设计具有现实代表性且覆盖多元受保护群体的简历与职位描述数据；如何确保模拟决策场景的生态效度，以准确反映真实招聘中的偏见模式；以及在数据标注与结构设计中，如何平衡隐私保护与数据可用性，避免引入新的偏差源。

常用场景

经典使用场景

在人工智能伦理与公平性研究领域，Stereotypes-in-LLMs/hiring-analyses-baseline-uk数据集被广泛应用于评估大型语言模型在招聘场景中的偏见表现。该数据集通过模拟英国背景下的求职申请流程，整合了候选人简历、职位描述及受保护属性信息，为研究者提供了系统分析模型决策是否受性别、婚姻状况、宗教等因素影响的基准平台。其经典使用场景在于量化模型在人力资源筛选过程中可能存在的歧视性倾向，从而推动算法公平性的实证研究。

解决学术问题

该数据集有效解决了算法公平性研究中缺乏标准化评估框架的难题。通过提供涵盖多维度受保护属性的结构化数据，研究者能够精确识别语言模型在招聘决策中隐含的刻板印象与统计偏差。其意义在于建立了可复现的偏见检测范式，不仅揭示了自动化招聘系统可能加剧社会不平等的风险，更为开发去偏见化算法提供了关键的数据支撑，促进了人工智能伦理领域的理论深化与方法创新。

衍生相关工作

基于该数据集衍生的经典工作主要集中在偏见缓解技术与评估框架的创新。例如，研究者开发了针对招聘场景的对抗性去偏见模型，通过重新加权训练数据或引入公平性约束来优化决策逻辑；同时，多项研究利用该数据集构建了多维公平性评估指标，如跨群体决策一致性分析。这些工作不仅拓展了算法公平性的方法论体系，还为后续研究提供了可比较的基准结果，推动了该领域向细粒度、场景化方向的深入发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集