FairJob

Name: FairJob
Creator: Criteo AI Lab, Université Paris Dauphine-PSL
Published: 2024-07-03 20:30:39
License: 暂无描述

arXiv2024-07-03 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.03059v1

下载链接

链接失效反馈

官方服务：

资源简介：

FairJob数据集由Criteo AI Lab和Université Paris Dauphine-PSL创建，专注于在线职位推荐广告的公平性研究。该数据集包含大量匿名用户上下文和发布者特征，来源于为期5个月的职位定向广告活动。数据集通过非均匀子采样和特征随机投影进行处理，以保护商业机密并防止原始特征或用户上下文的恢复。尽管缺乏明确的敏感属性，数据集通过代理属性保持了预测能力，适用于探索广告过程中的不公平性及其缓解技术。

提供机构：

Criteo AI Lab, Université Paris Dauphine-PSL

创建时间：

2024-07-03

搜集汇总

数据集介绍

构建方式

FairJob数据集是在线广告领域中的公平性研究而设计的，它收集了5个月的针对性招聘活动数据。数据集包含匿名化的用户上下文和发布商特征，这些数据经过非均匀抽样以避免泄露商业指标，并对其进行了匿名化处理以保护商业机密。尽管数据集不包含明确的敏感属性，如性别，但它包含了一个由非敏感相关属性推导出的性别代理估计值。尽管数据被匿名化并包含了一个敏感属性的代理，但我们的数据集仍然保留了预测能力，并保持了一个现实和具有挑战性的基准。

特点

FairJob数据集的特点包括：1) 大规模且真实世界场景的数据集，包含1072226条记录，用于学习点击预测模型并评估其预测在不同性别群体之间的偏差；2) 数据集包含了用户和产品特征，包括20个分类特征和39个数值特征，以及点击标签和性别代理等；3) 数据集在保护隐私的同时，保留了预测能力，使得研究人员可以在不泄露用户隐私的情况下研究算法公平性问题。

使用方法

使用FairJob数据集的方法包括：1) 数据预处理：对数据集中的分类和数值特征进行嵌入处理，以适应机器学习模型的输入要求；2) 模型训练：使用不同的训练策略，如不包括保护属性、使用保护属性和不公平性惩罚等，来训练机器学习模型；3) 模型评估：使用公平性指标和性能指标来评估模型的公平性和预测能力，如人口统计平衡性、点击率等。

背景与挑战

背景概述

FairJob 数据集是一个关注在线系统中公平性的现实世界数据集，专门为广告中的工作推荐而设计。该数据集由 Criteo AI Lab 的 Mariia Vladimirova 和 Eustache Diemert 以及 Université Paris Dauphine-PSL 的 Federico Pavone 共同创建，旨在促进算法公平性在现实世界场景中的研究。数据集的收集和准备符合隐私标准和商业机密性。由于缺乏对受保护用户属性（如性别）的访问，FairJob 提出了一个解决方案来获得代理估计。尽管数据集经过匿名化并包含敏感属性的代理，但仍然保留了预测能力，并维持了一个现实且具有挑战性的基准。FairJob 数据集填补了广告等高影响力领域中公平性资源可用性的重大空白，因为访问或无法访问宝贵的就业机会的实际影响，以及在平衡公平性和实用性方面的常见工业挑战。该数据集还探索了广告过程中可能发生不公平的各个阶段，并引入了一种方法来计算在线系统中工作推荐案例的公平效用指标，即使从有偏见的数据集中也可以。在发布的 FairJob 数据集上对偏差缓解技术的实验评估表明，公平性有所提高，并且与实用性存在相关权衡。

当前挑战

FairJob 数据集面临的关键挑战包括：1) 解决领域问题，特别是在线广告中的算法歧视问题；2) 构建过程中遇到的挑战，如隐私保护、敏感属性的代理估计以及数据集的真实性和挑战性。FairJob 数据集旨在解决现有公平性研究中存在的数据集可用性问题，特别是针对表格数据的研究。此外，由于隐私限制或法律限制，AI 系统通常无法访问受保护的属性，因此 FairJob 提出了在没有受保护属性信息的情况下如何进行公平性研究的挑战。FairJob 数据集还面临数据不平衡和混合类型列的处理问题，这对训练鲁棒和公平的机器学习模型构成了挑战。最后，由于缺乏对敏感信息的直接访问，FairJob 数据集的公平性和实用性之间的权衡评估也面临挑战。

常用场景

经典使用场景

FairJob数据集是一个为在线系统中的公平性研究而设计的公平意识数据集，特别是在招聘广告领域。该数据集旨在促进在现实世界场景中对算法公平性的研究，同时符合隐私标准和商业保密性。尽管数据集已经匿名化并包含敏感属性的代理估计，但它仍然保留了预测能力，并保持了一个现实和有挑战性的基准。FairJob数据集填补了在广告等高影响力领域缺乏公平性资源的空白，这些领域中的实际影响是是否能够获得宝贵的就业机会，而平衡公平性和实用性是一个常见的工业挑战。此外，该数据集还探索了广告过程中可能出现不公平性的各个阶段，并介绍了一种计算在线系统中工作推荐公平性度量的方法，以应对来自有偏见数据集的情况。对发布数据集上的偏差缓解技术的实验评估表明，可以在公平性和与实用性相关的权衡方面取得潜在改进。

实际应用

FairJob数据集的实际应用场景包括招聘广告、在线招聘平台、职业推荐系统等。这些系统通常使用算法来匹配求职者与职位，以确保公平性和实用性。FairJob数据集可以帮助这些系统开发更公平的算法，以减少对受保护群体的歧视，并提供更准确的职位推荐。此外，FairJob数据集还可以用于评估和改进现有的公平性技术和方法，以提高在线系统中的公平性。

衍生相关工作

FairJob数据集的发布已经催生了一系列相关的研究工作，包括算法公平性、偏差缓解技术和隐私保护数据发布等。例如，一些研究人员使用FairJob数据集来评估和比较不同的偏差缓解技术，如公平性惩罚、对抗性算法和预处理校正等。此外，FairJob数据集还被用于探索和改进隐私保护数据发布技术，以保护敏感信息的同时，仍然保留数据的预测能力。FairJob数据集的发布为算法公平性研究提供了一个重要的基准数据集，推动了该领域的发展，并为实际应用中的公平性挑战提供了新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集