LabHC/bias_in_bios
收藏Hugging Face2023-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LabHC/bias_in_bios
下载链接
链接失效反馈官方服务:
资源简介:
Bias in Bios数据集由De-Artega等人于2019年创建,用于研究NLP模型中的偏见问题。数据集包含用于预测职业的文本传记,敏感属性为性别(二元)。Ravgofel等人在2020年提出了一个稍小的版本,因为缺少5,557个传记。数据集分为训练集(257,000个样本)、测试集(99,000个样本)和开发集(40,000个样本)。数据集的分类标签包括28种职业,每种职业都有对应的数值标签和比例。敏感属性标签包括男性和女性,分别对应数值标签0和1,比例分别为53.9%和46.1%。
The Bias in Bios dataset was developed by De-Artega et al. in 2019 to investigate bias in natural language processing (NLP) models. It comprises textual biographies intended for occupational prediction tasks, with gender (binary) as the sensitive attribute. In 2020, Ravgofel et al. proposed a smaller variant of the dataset, which excluded 5,557 biographical entries. The dataset is partitioned into three subsets: the training set with 257,000 samples, the test set with 99,000 samples, and the development set with 40,000 samples. The classification labels cover 28 occupations, each paired with a corresponding numerical label and its relative proportion in the dataset. For the sensitive gender attribute, male and female are assigned numerical labels 0 and 1 respectively, with their overall proportions in the dataset being 53.9% and 46.1% respectively.
提供机构:
LabHC
原始信息汇总
Bias in Bios 数据集概述
数据集基本信息
- 许可证:MIT
- 任务类别:文本分类
- 语言:英语
数据集特征
- 特征列表:
hard_text:字符串类型,文本内容profession:64位整数类型,职业标签gender:64位整数类型,性别标签
数据集划分
- 训练集:
- 字节数:107487885
- 样本数:257478
- 测试集:
- 字节数:41312256
- 样本数:99069
- 开发集:
- 字节数:16504417
- 样本数:39642
数据集大小
- 下载大小:99808338 字节
- 数据集总大小:165304558 字节
分类标签
| 职业 | 数值标签 | 比例 (%) |
|---|---|---|
| accountant | 0 | 1.42 |
| architect | 1 | 2.55 |
| attorney | 2 | 8.22 |
| chiropractor | 3 | 0.67 |
| comedian | 4 | 0.71 |
| composer | 5 | 1.41 |
| dentist | 6 | 3.68 |
| dietitian | 7 | 1.0 |
| dj | 8 | 0.38 |
| filmmaker | 9 | 1.77 |
| interior_designer | 10 | 0.37 |
| journalist | 11 | 5.03 |
| model | 12 | 1.89 |
| nurse | 13 | 4.78 |
| painter | 14 | 1.95 |
| paralegal | 15 | 0.45 |
| pastor | 16 | 0.64 |
| personal_trainer | 17 | 0.36 |
| photographer | 18 | 6.13 |
| physician | 19 | 10.35 |
| poet | 20 | 1.77 |
| professor | 21 | 29.8 |
| psychologist | 22 | 4.64 |
| rapper | 23 | 0.35 |
| software_engineer | 24 | 1.74 |
| surgeon | 25 | 3.43 |
| teacher | 26 | 4.09 |
| yoga_teacher | 27 | 0.42 |
敏感属性
| 性别 | 数值标签 | 比例 (%) |
|---|---|---|
| Male | 0 | 53.9 |
| Female | 1 | 46.1 |
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,性别偏见研究日益受到重视,Bias in Bios数据集的构建正是为了深入探究这一议题。该数据集由De-Arteaga等人于2019年创建,原始版本收集了大量在线传记文本,旨在通过文本内容预测人物的职业类别,同时以二元性别作为敏感属性。当前版本由Ravgofel等人在2020年提出,由于部分传记无法获取,规模略有缩减,最终包含约39.7万条样本,划分为训练集、测试集和开发集,分别涵盖25.7万、9.9万和4.0万条数据,每条数据均包含传记文本、职业标签及性别标签。
特点
该数据集的核心特点在于其专注于职业与性别关联的偏见分析,涵盖了28种职业类别,包括教授、医生、律师等常见职业,其中教授类别占比最高,达到29.8%,而瑜伽教师等职业占比较低。性别分布相对均衡,男性占比53.9%,女性占比46.1%,为偏见检测提供了可靠的数据基础。文本内容均为英文传记,语言风格多样,从学术描述到生活化叙述不一而足,这种多样性增强了模型评估的泛化能力。
使用方法
在应用层面,该数据集主要用于自然语言处理模型的偏见检测与缓解研究。研究人员可通过HuggingFace平台直接加载数据,使用load_dataset函数分别导入训练集、测试集和开发集。典型应用包括训练文本分类模型以预测职业,同时分析模型在不同性别群体上的性能差异,从而识别潜在的偏见。此外,该数据集还可用于开发去偏见算法,例如通过迭代零空间投影等技术去除性别敏感信息,推动公平机器学习的发展。
背景与挑战
背景概述
在自然语言处理领域,社会偏见问题日益凸显,Bias in Bios数据集应运而生。该数据集由Maria De-Arteaga等研究人员于2019年创建,并由微软等机构支持发布,旨在探究自然语言处理模型中的性别偏见现象。其核心研究问题聚焦于高风险场景下语义表征偏见的量化与缓解,通过收集大量英文传记文本,以职业分类任务为切入点,揭示模型在预测过程中可能存在的性别歧视倾向。该数据集的建立为公平性、问责制与透明度研究提供了重要实证基础,推动了计算社会科学与伦理人工智能的交叉融合,对后续偏见检测与去偏技术的发展产生了深远影响。
当前挑战
Bias in Bios数据集所针对的领域挑战在于职业分类任务中性别偏见的系统化识别与消除。自然语言模型往往从训练数据中隐式学习社会刻板印象,导致预测结果出现性别失衡,例如将“护士”与女性过度关联,而“外科医生”则偏向男性,这种偏见可能加剧现实社会的不平等。在构建过程中,挑战主要源于数据收集与标注的复杂性:传记文本需涵盖多样化的职业与性别分布,但实际数据往往反映现实世界中的结构性偏差;同时,性别仅以二元形式标注,未能涵盖非二元性别身份,限制了数据集的包容性与代表性。此外,原始数据中部分传记的缺失也带来了版本一致性与完整性的问题。
常用场景
经典使用场景
在自然语言处理领域,Bias in Bios数据集常被用于探究文本分类任务中的性别偏见问题。该数据集包含大量英文传记文本,旨在根据文本内容预测人物的职业类别,同时标注了性别作为敏感属性。研究者通过构建职业分类模型,分析模型在不同性别群体上的性能差异,从而揭示模型可能存在的系统性偏见。这种场景为评估和缓解机器学习模型中的社会偏见提供了标准化实验环境,促进了公平性研究的可重复性和可比性。
实际应用
在实际应用中,Bias in Bios数据集被广泛用于开发和测试公平的招聘工具、内容推荐系统以及职业咨询平台。例如,在自动化简历筛选系统中,利用该数据集训练的模型可以帮助识别并减少基于性别的职业刻板印象,确保选拔过程的公正性。此外,媒体和社交平台也可借助此类研究优化人物传记的自动生成或摘要,避免强化有害的社会偏见。这些应用有助于构建更负责任、包容性更强的人工智能系统,服务于多样化的社会需求。
衍生相关工作
围绕Bias in Bios数据集,已衍生出多项经典研究工作。例如,De-Artega等人(2019)的开创性研究首次系统揭示了职业分类模型中的性别偏见模式。随后,Ravfogel等人(2020)提出了迭代零空间投影方法,旨在从表征中移除敏感属性信息以减轻偏见。其他相关工作包括开发对抗性去偏框架、基于因果推理的偏见分析模型以及跨领域偏见迁移研究。这些成果共同丰富了公平机器学习的方法论体系,并促进了后续更细粒度的偏见数据集构建。
以上内容由遇见数据集搜集并总结生成



