five

FairJob

收藏
arXiv2024-07-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.03059v1
下载链接
链接失效反馈
官方服务:
资源简介:
FairJob数据集由Criteo AI Lab和Université Paris Dauphine-PSL创建,专注于在线职位推荐广告的公平性研究。该数据集包含大量匿名用户上下文和发布者特征,来源于为期5个月的职位定向广告活动。数据集通过非均匀子采样和特征随机投影进行处理,以保护商业机密并防止原始特征或用户上下文的恢复。尽管缺乏明确的敏感属性,数据集通过代理属性保持了预测能力,适用于探索广告过程中的不公平性及其缓解技术。
提供机构:
Criteo AI Lab, Université Paris Dauphine-PSL
创建时间:
2024-07-03
搜集汇总
数据集介绍
main_image_url
构建方式
FairJob数据集是在线广告领域中的公平性研究而设计的,它收集了5个月的针对性招聘活动数据。数据集包含匿名化的用户上下文和发布商特征,这些数据经过非均匀抽样以避免泄露商业指标,并对其进行了匿名化处理以保护商业机密。尽管数据集不包含明确的敏感属性,如性别,但它包含了一个由非敏感相关属性推导出的性别代理估计值。尽管数据被匿名化并包含了一个敏感属性的代理,但我们的数据集仍然保留了预测能力,并保持了一个现实和具有挑战性的基准。
特点
FairJob数据集的特点包括:1) 大规模且真实世界场景的数据集,包含1072226条记录,用于学习点击预测模型并评估其预测在不同性别群体之间的偏差;2) 数据集包含了用户和产品特征,包括20个分类特征和39个数值特征,以及点击标签和性别代理等;3) 数据集在保护隐私的同时,保留了预测能力,使得研究人员可以在不泄露用户隐私的情况下研究算法公平性问题。
使用方法
使用FairJob数据集的方法包括:1) 数据预处理:对数据集中的分类和数值特征进行嵌入处理,以适应机器学习模型的输入要求;2) 模型训练:使用不同的训练策略,如不包括保护属性、使用保护属性和不公平性惩罚等,来训练机器学习模型;3) 模型评估:使用公平性指标和性能指标来评估模型的公平性和预测能力,如人口统计平衡性、点击率等。
背景与挑战
背景概述
FairJob 数据集是一个关注在线系统中公平性的现实世界数据集,专门为广告中的工作推荐而设计。该数据集由 Criteo AI Lab 的 Mariia Vladimirova 和 Eustache Diemert 以及 Université Paris Dauphine-PSL 的 Federico Pavone 共同创建,旨在促进算法公平性在现实世界场景中的研究。数据集的收集和准备符合隐私标准和商业机密性。由于缺乏对受保护用户属性(如性别)的访问,FairJob 提出了一个解决方案来获得代理估计。尽管数据集经过匿名化并包含敏感属性的代理,但仍然保留了预测能力,并维持了一个现实且具有挑战性的基准。FairJob 数据集填补了广告等高影响力领域中公平性资源可用性的重大空白,因为访问或无法访问宝贵的就业机会的实际影响,以及在平衡公平性和实用性方面的常见工业挑战。该数据集还探索了广告过程中可能发生不公平的各个阶段,并引入了一种方法来计算在线系统中工作推荐案例的公平效用指标,即使从有偏见的数据集中也可以。在发布的 FairJob 数据集上对偏差缓解技术的实验评估表明,公平性有所提高,并且与实用性存在相关权衡。
当前挑战
FairJob 数据集面临的关键挑战包括:1) 解决领域问题,特别是在线广告中的算法歧视问题;2) 构建过程中遇到的挑战,如隐私保护、敏感属性的代理估计以及数据集的真实性和挑战性。FairJob 数据集旨在解决现有公平性研究中存在的数据集可用性问题,特别是针对表格数据的研究。此外,由于隐私限制或法律限制,AI 系统通常无法访问受保护的属性,因此 FairJob 提出了在没有受保护属性信息的情况下如何进行公平性研究的挑战。FairJob 数据集还面临数据不平衡和混合类型列的处理问题,这对训练鲁棒和公平的机器学习模型构成了挑战。最后,由于缺乏对敏感信息的直接访问,FairJob 数据集的公平性和实用性之间的权衡评估也面临挑战。
常用场景
经典使用场景
FairJob数据集是一个为在线系统中的公平性研究而设计的公平意识数据集,特别是在招聘广告领域。该数据集旨在促进在现实世界场景中对算法公平性的研究,同时符合隐私标准和商业保密性。尽管数据集已经匿名化并包含敏感属性的代理估计,但它仍然保留了预测能力,并保持了一个现实和有挑战性的基准。FairJob数据集填补了在广告等高影响力领域缺乏公平性资源的空白,这些领域中的实际影响是是否能够获得宝贵的就业机会,而平衡公平性和实用性是一个常见的工业挑战。此外,该数据集还探索了广告过程中可能出现不公平性的各个阶段,并介绍了一种计算在线系统中工作推荐公平性度量的方法,以应对来自有偏见数据集的情况。对发布数据集上的偏差缓解技术的实验评估表明,可以在公平性和与实用性相关的权衡方面取得潜在改进。
实际应用
FairJob数据集的实际应用场景包括招聘广告、在线招聘平台、职业推荐系统等。这些系统通常使用算法来匹配求职者与职位,以确保公平性和实用性。FairJob数据集可以帮助这些系统开发更公平的算法,以减少对受保护群体的歧视,并提供更准确的职位推荐。此外,FairJob数据集还可以用于评估和改进现有的公平性技术和方法,以提高在线系统中的公平性。
衍生相关工作
FairJob数据集的发布已经催生了一系列相关的研究工作,包括算法公平性、偏差缓解技术和隐私保护数据发布等。例如,一些研究人员使用FairJob数据集来评估和比较不同的偏差缓解技术,如公平性惩罚、对抗性算法和预处理校正等。此外,FairJob数据集还被用于探索和改进隐私保护数据发布技术,以保护敏感信息的同时,仍然保留数据的预测能力。FairJob数据集的发布为算法公平性研究提供了一个重要的基准数据集,推动了该领域的发展,并为实际应用中的公平性挑战提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作