Stereotypes-in-LLMs/hiring-analyses-optimized_parameters-en

Name: Stereotypes-in-LLMs/hiring-analyses-optimized_parameters-en
Creator: Stereotypes-in-LLMs
Published: 2024-04-27 19:07:13
License: 暂无描述

Hugging Face2024-04-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Stereotypes-in-LLMs/hiring-analyses-optimized_parameters-en

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: candidate_id dtype: string - name: job_id dtype: string - name: CV dtype: string - name: Job Description dtype: string - name: Job Position dtype: string - name: lang dtype: string - name: protected_group dtype: string - name: protected_attr dtype: string - name: group_id dtype: string - name: decision dtype: string - name: feedback dtype: string - name: raw_ai_decision dtype: string splits: - name: gender num_bytes: 30236850 num_examples: 9000 - name: marital_status num_bytes: 7592342 num_examples: 2250 - name: military_status num_bytes: 7583318 num_examples: 2250 - name: religion num_bytes: 13575428 num_examples: 4050 - name: name num_bytes: 15121306 num_examples: 4500 - name: age num_bytes: 9011390 num_examples: 2700 download_size: 5110713 dataset_size: 83120634 configs: - config_name: default data_files: - split: gender path: data/gender-* - split: marital_status path: data/marital_status-* - split: military_status path: data/military_status-* - split: religion path: data/religion-* - split: name path: data/name-* - split: age path: data/age-* license: cc-by-4.0 ---

提供机构：

Stereotypes-in-LLMs

原始信息汇总

数据集概述

数据集特征

candidate_id: 数据类型为字符串。
job_id: 数据类型为字符串。
CV: 数据类型为字符串。
Job Description: 数据类型为字符串。
Job Position: 数据类型为字符串。
lang: 数据类型为字符串。
protected_group: 数据类型为字符串。
protected_attr: 数据类型为字符串。
group_id: 数据类型为字符串。
decision: 数据类型为字符串。
feedback: 数据类型为字符串。
raw_ai_decision: 数据类型为字符串。

数据集分割

gender: 字节数为30236850，示例数为9000。
marital_status: 字节数为7592342，示例数为2250。
military_status: 字节数为7583318，示例数为2250。
religion: 字节数为13575428，示例数为4050。
name: 字节数为15121306，示例数为4500。
age: 字节数为9011390，示例数为2700。

数据集大小

下载大小: 5110713字节。
数据集总大小: 83120634字节。

配置文件

config_name: default
data_files:
- split: gender, path: data/gender-*
- split: marital_status, path: data/marital_status-*
- split: military_status, path: data/military_status-*
- split: religion, path: data/religion-*
- split: name, path: data/name-*
- split: age, path: data/age-*

许可证

license: cc-by-4.0

搜集汇总

数据集介绍

构建方式

在人工智能伦理研究领域，为深入探究大型语言模型在招聘场景中可能存在的偏见，该数据集通过精心设计的模拟实验构建而成。研究者首先创建了包含多样化候选人简历与职位描述的文本对，并系统性地嵌入了与性别、婚姻状况、兵役状况、宗教信仰、姓名及年龄相关的受保护属性信息。随后，利用优化参数配置的大型语言模型对这些模拟候选人进行招聘决策分析，从而生成包含模型原始决策、最终决策及反馈的完整交互记录，最终形成了覆盖多个敏感维度的结构化数据集。

特点

该数据集的核心特征在于其多维度、细粒度的偏见分析框架。数据条目不仅包含候选人与职位的基本匹配信息，更关键地标注了受保护群体类别及其具体属性，使得针对特定社会人口学特征的歧视模式研究成为可能。数据集按偏见维度划分为独立的子集，如性别、宗教等，每个子集规模可观，确保了统计分析的可信度。这种结构允许研究者横向比较不同敏感属性对模型决策的影响差异，为量化评估模型公平性提供了扎实的数据基础。

使用方法

该数据集主要服务于自然语言处理与算法公平性交叉领域的研究工作。使用者可加载特定子集，通过分析`decision`、`raw_ai_decision`与`protected_attr`等关键字段的关联性，统计模型在不同受保护群体上的决策分布差异，从而检测并度量潜在的偏见。此外，结合`CV`和`Job Description`文本，研究者可进一步探究偏见产生的语境与语言线索。该数据集适用于训练偏见缓解模型、制定公平性评估基准，或作为验证新提出的去偏见算法效果的测试平台。

背景与挑战

背景概述

在人工智能伦理与公平性研究领域，大型语言模型（LLMs）在自动化决策系统中的潜在偏见问题日益受到关注。Stereotypes-in-LLMs/hiring-analyses-optimized_parameters-en数据集由相关研究团队构建，旨在系统评估LLMs在模拟招聘场景中是否表现出基于性别、婚姻状况、宗教、年龄等受保护属性的刻板印象或歧视性倾向。该数据集通过精心设计的候选人简历与职位描述配对，记录了模型生成的招聘决策及反馈，为核心研究问题——即LLMs在敏感社会应用中的公平性保障——提供了实证分析基础，对推动可信人工智能的发展具有重要影响力。

当前挑战

该数据集致力于解决自动化招聘系统中算法公平性评估的挑战，其核心在于检测并量化LLMs在决策过程中可能隐含的多维度社会偏见，例如对特定性别、年龄群体或宗教背景的不当偏好。在构建过程中，研究人员面临多重挑战：一是需要设计具有足够多样性和真实性的简历与职位描述样本，以覆盖广泛的受保护属性组合；二是确保标注的受保护属性（如性别、婚姻状况等）既符合伦理规范又能有效触发模型的潜在偏见；三是平衡数据规模与标注成本，以生成可用于稳健统计分析的量化结果。

常用场景

经典使用场景

在人工智能伦理与公平性研究领域，该数据集为评估大型语言模型在招聘场景中的偏见提供了关键资源。通过模拟多样化的候选人简历与职位描述，研究者能够系统分析模型决策是否受到性别、婚姻状况、宗教等受保护属性的影响。这种评估不仅揭示了模型潜在的歧视模式，还为开发公平算法奠定了实证基础。

衍生相关工作

基于该数据集，学术界已涌现多项经典研究，例如探索对抗性去偏见方法在招聘模型中的应用，以及开发多任务学习框架以平衡性能与公平性。这些工作不仅深化了对算法偏见机制的理解，还催生了如公平性评估基准与偏差缓解工具包等一系列开源资源。

数据集最近研究