criteo/FairJob

Name: criteo/FairJob
Creator: criteo
Published: 2024-07-04 07:09:46
License: 暂无描述

Hugging Face2024-07-04 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/criteo/FairJob

下载链接

链接失效反馈

官方服务：

资源简介：

FairJob数据集由Criteo发布，旨在促进广告和AI系统中的公平性研究。数据集包含1072226行和55列，每行代表一个展示给用户的产品，用户可以在一个展示会话中看到多个产品。数据集的特征包括用户ID、产品ID、展示ID、匿名分类用户特征、匿名分类产品特征、匿名数值用户特征等。标签包括保护属性（性别代理）、职位级别、产品展示位置、点击等。数据集的局限性包括性别代理的近似性、历史偏见和市场不公平性等。挑战包括处理混合类型数据、长尾现象、产品流行度偏差和高度不平衡的数据。评估指标包括负对数似然和基于职位级别的公平性度量。

The FairJob dataset is released by Criteo to foster research and innovation on Fairness in Advertising and AI systems. The dataset contains 1072226 rows and 55 columns, with each row representing a product shown to a user. Users can see multiple products in a single impression session. The dataset features include user ID, product ID, impression ID, anonymized categorical user features, anonymized categorical product features, and anonymized numerical user features. Labels include protected attribute (gender proxy), job seniority, product display position, and click. Limitations of the dataset include the approximation of gender proxy, historical bias, and market unfairness. Challenges include handling mixed-type data, long-tail phenomenon, product popularity bias, and highly imbalanced data. Evaluation metrics include negative log-likelihood and fairness metrics based on job seniority.

提供机构：

criteo

原始信息汇总

CRITEO FAIRNESS IN JOB ADS DATASET

概述

该数据集由Criteo发布，旨在促进广告和AI系统中公平性的研究和创新。数据集旨在用于学习点击预测模型，并评估这些模型在不同性别群体中的预测偏差。

许可

数据集基于CC-BY-NC-SA 4.0许可发布。您可以自由分享和改编这些数据，前提是您遵守署名、非商业用途和相同方式共享的条件。请在使用前仔细阅读完整许可。

数据描述

数据集包含Criteo AdTech公司运行了5个月的职位定向广告活动中收集的匿名用户上下文和发布者特征。每行代表向用户展示的产品。每个用户都有一个印象会话，可以在同一时间看到多个产品。每个产品可能被用户点击或未点击。数据集包含1072226行和55列。

特征
- user_id：分配给每个用户的唯一标识符，已匿名化。
- product_id：分配给每个产品的唯一标识符，即职位广告。
- impression_id：分配给每个印象的唯一标识符，即可以同时显示多个产品的在线会话。
- cat0 到 cat5：匿名的分类用户特征。
- cat6 到 cat12：匿名的分类产品特征。
- num13 到 num47：匿名的数值用户特征。
标签
- protected_attribute：描述用户性别代理的二元特征，女性为0，男性为1。
- senior：描述职位高级性的二元特征，助理角色为0，管理角色为1。
- rank：对应于产品在给定impression_id显示中的位置排序的数值特征。
- displayrandom：如果与同一impression_id相关的产品在横幅上的显示位置被随机化，则为1。
- click：如果用户在印象impression_id中点击了产品product_id，则为1。

数据统计

维度	平均值
click	0.077
protected attribute	0.500
senior	0.704

受保护属性

由于Criteo无法访问用户人口统计信息，我们报告了一个性别代理作为受保护属性。该代理以二元形式报告，但我们承认性别不一定是二元的。

代理值计算为用户时间线中看到的产品性别属性的多数。具有性别属性的产品通常是时尚和服装。我们鼓励在其他属性方面进行公平性研究。

限制和解释

我们指出，提出的性别代理并不给出性别的定义。由于我们无法访问敏感信息，这是我们目前识别匿名数据偏差的最佳解决方案，我们鼓励任何关于更好近似的讨论。虽然我们的研究聚焦于性别，但这不应减少调查其他类型算法歧视的重要性。尽管该数据集在公平性算法的高风险领域提供了重要的应用，但存在一些基本限制，这些限制无法通过数据收集或整理过程轻易解决。这些限制包括影响用户正面结果的历史偏差，以及无法验证性别代理与真实性别值的接近程度。此外，可能存在市场不公平导致的偏差。在使用该数据集进行研究时，应考虑这些限制和可能的伦理问题。读者不应将该数据集的汇总统计数据解释为真实情况，而应仅视为数据集的特征。

指标

强烈建议使用负对数似然（越低越好）来衡量预测质量。

建议通过根据高级职位广告的条件化人口统计平权来衡量广告的公平性：

$$ E[f(x) | protected_attribute=1, senior=1] - E[f(x) | protected_attribute=0, senior=1] $$

这对应于两个性别群体在高级职位机会预测中的平均差异（越低越好）。直观上，当该指标较低时，意味着我们不会偏向于向一个性别展示更多高级职位机会。

示例

您可以通过运行example.py（需要numpy + torch）开始。这实现了：

一个虚拟分类器（完全公平但不太有用）
一个带有分类特征嵌入的逻辑回归（很大程度上不公平且有用）
一个“公平”逻辑回归（相对公平且有用）

“公平”逻辑回归基于Bechavod & Ligett提出的方法。

引用

如果您在研究中使用该数据集，请使用以下Bibtex条目引用：

@misc{criteo_fairness_dataset author = {CRITEO}, title = {{CRITEO FAIRNESS IN JOB ADS DATASET}, year = {2024}, howpublished= {url{http://XXX}}

搜集汇总

数据集介绍

构建方式

在在线广告系统的公平性研究领域，FairJob数据集由Criteo公司构建，旨在促进广告与人工智能系统中的公平性探索。该数据集源自Criteo为期五个月的职位定向广告活动，通过伪匿名化处理收集了用户上下文与发布商特征。数据包含1072226行记录与55个特征列，每条记录代表向用户展示的一个产品（即职位广告），并记录了用户是否点击该产品。构建过程中，特征被划分为匿名化的分类用户特征（cat0至cat5）、分类产品特征（cat6至cat12）以及数值用户特征（num13至num47），同时通过产品标题提取了职位高级别属性（senior），并基于用户历史行为推导了性别代理特征（protected_attribute），以模拟现实世界中的偏见评估场景。

特点

FairJob数据集在公平性机器学习研究中展现出独特价值，其核心特点在于真实性与复杂性并存。数据集规模庞大，超过百万行记录，涵盖了混合类型特征，包括数值与分类变量，并存在长尾分布与产品流行度偏差现象。标签方面，点击率极低（约0.077），呈现高度不平衡性，这为模型鲁棒性训练带来挑战。值得注意的是，数据集引入了性别代理特征作为受保护属性，虽以二进制形式简化表示，但明确承认性别非二元性，并强调了其作为近似代理的局限性。此外，数据集包含展示随机化标志（displayrandom），允许研究者排除位置偏见，专注于公平性度量，如针对高级职位预测的群体间差异评估。

使用方法

FairJob数据集适用于点击预测模型的训练与公平性评估，研究者可基于其进行算法偏见分析与缓解策略探索。使用前需遵循CC-BY-NC-SA 4.0许可协议，确保非商业用途与署名要求。数据加载后，建议优先处理混合类型特征，通过嵌入方法对分类变量进行编码，并结合数值特征构建预测模型。评估时，应使用负对数似然作为预测质量指标，同时计算基于高级职位的群体间预测期望差异，以度量公平性。数据集中displayrandom=1的子集可用于计算无位置偏见的点击率指标。研究者可参考附带的示例代码，实现从简单分类器到公平逻辑回归的对比实验，以深入探究公平性与效用间的平衡关系。

背景与挑战

背景概述

在人工智能与在线广告系统日益渗透社会生活的背景下，算法公平性已成为学术界与工业界共同关注的核心议题。Criteo公司于2024年发布了FairJob数据集，由Mariia Vladimirova等研究人员主导构建，旨在推动广告及AI系统公平性研究的实证探索。该数据集源自Criteo为期五个月的职位定向广告活动，包含超过一百万条伪匿名化用户交互记录，核心研究问题聚焦于点击预测模型中不同性别群体间的预测偏差评估。作为首个面向在线系统公平性的大规模真实世界表格数据集，FairJob为量化算法歧视、开发去偏技术提供了关键基准，显著促进了计算广告与社会计算领域的交叉研究进展。

当前挑战

FairJob数据集所针对的领域挑战在于在线广告系统中存在的性别偏见问题，特别是在职位推荐场景下，算法可能无意识地强化性别职业刻板印象，例如向特定性别群体倾斜展示高级管理职位。构建过程中的技术挑战尤为复杂：其一，数据混合了数值型与分类型特征，且部分特征呈现长尾分布与流行度偏差，对特征嵌入与模型设计提出更高要求；其二，正样本比例极低（点击率不足0.007），导致模型训练易受类别不平衡影响；其三，尽管保护属性在数据层面分布均衡，但基于产品性别属性推算的用户性别代理变量可能存在近似误差，且历史偏差与市场不公等隐含因素难以通过数据清洗完全消除，这些局限对公平性评估的可靠性构成了潜在威胁。

常用场景

经典使用场景

在在线广告与推荐系统的公平性研究领域，FairJob数据集为探索点击率预测模型中的性别偏见提供了关键实证基础。该数据集源自Criteo公司为期五个月的职位定向广告活动，包含超过百万条伪匿名化的用户交互记录，涵盖用户特征、产品属性及点击行为。研究者通常利用其丰富的数值与分类特征，构建机器学习模型以预测用户对特定职位的点击倾向，同时通过保护属性（性别代理变量）评估模型在不同群体间的预测偏差。经典应用场景聚焦于训练兼顾预测性能与公平性的分类器，例如在控制职位层级（如高级管理岗位）的条件下，分析模型是否对不同性别用户呈现系统性差异。

衍生相关工作

基于FairJob数据集，已衍生出多项聚焦于公平性机器学习的经典研究工作。例如，原始论文中引用的公平逻辑回归方法借鉴了Bechavod等人（2017）提出的去偏差技术，通过约束模型在保护属性上的预测差异来平衡性能与公平性。后续研究可能围绕该数据集开发新型公平正则化方法、对抗性去偏差框架或多任务学习架构，以处理其高维稀疏特征与极端类别不平衡问题。此外，该数据集也激励了关于非二元性别代理变量、历史偏差修正以及跨领域公平性度量的方法论探讨，推动了公平性研究向更细粒度、更符合现实复杂性的方向发展。

数据集最近研究