FedAds

Name: FedAds
Creator: 阿里巴巴集团
Published: 2023-05-15 11:34:42
License: 暂无描述

arXiv2023-05-15 更新2024-06-21 收录

下载链接：

https://github.com/alibaba/Elastic-Federated-Learning-Solution/tree/FedAds

下载链接

链接失效反馈

官方服务：

资源简介：

FedAds数据集是由阿里巴巴集团基于其广告平台收集的大规模真实世界数据集，专门用于隐私保护的CVR估计与垂直联邦学习研究。该数据集包含1130万条样本，涵盖用户点击事件及其后续行为，如购买行为等。数据集的创建旨在通过系统化的评估，促进垂直联邦学习算法的发展，特别是在提高模型效果和保护隐私方面的应用。FedAds数据集的应用领域主要集中在在线广告和推荐系统中，旨在通过联邦学习技术，不交换原始数据的情况下，结合多方优势，提高CVR估计的准确性和用户数据隐私的保护。

The FedAds dataset is a large-scale real-world dataset collected by Alibaba Group based on its advertising platform, specifically tailored for privacy-preserving CVR estimation and vertical federated learning research. It contains 11.3 million samples, covering user click events and their subsequent behaviors such as purchase actions. The dataset was developed to facilitate the advancement of vertical federated learning algorithms via systematic evaluation, particularly their applications in improving model performance and safeguarding privacy. The FedAds dataset is mainly applied in online advertising and recommendation systems, where it aims to integrate the advantages of multiple parties through federated learning technologies without exchanging raw user data, thereby enhancing the accuracy of CVR estimation and protecting user data privacy.

提供机构：

阿里巴巴集团

创建时间：

2023-05-15

搜集汇总

数据集介绍

构建方式

在在线广告转化率估计领域，数据隐私保护与模型性能提升的平衡至关重要。FedAds数据集的构建源于阿里巴巴广告平台的实际业务场景，其基础数据来自依赖垂直联邦学习排序模型的广告投放业务点击日志。该数据集采集了为期一个月的连续用户点击事件，每个样本对应唯一的点击行为，并记录了请求与点击的时间戳等上下文信息。样本标签依据用户在点击广告后24小时内的购买行为进行设定，采用最后触点归因策略。特征集由标签方（广告平台）与非标签方（在线出版商）共同提供，涵盖用户画像、广告属性及上下文特征，共计23个特征。为保障公平比较与隐私安全，原始特征值经过离散化与ID映射处理，最终形成包含1130万样本的大规模表格数据集，并按时序划分为训练集与测试集。

特点

FedAds数据集作为首个面向垂直联邦学习转化率估计的基准，其核心特点体现在规模真实性、结构规范性与评估系统性。该数据集拥有1130万样本量，是目前公开领域中规模最大的转化率估计与垂直联邦学习评估数据集，所有数据均源自真实业务场景，避免了手工特征划分的模拟局限。数据集天然具备垂直联邦学习所需的特征划分结构，标签方持有16个特征与转化标签，非标签方持有7个特征，为隐私保护下的协同训练提供了直接支持。此外，FedAds不仅提供高质量数据，更构建了涵盖模型效能与隐私保护的双维度系统评估框架，支持对多种先进垂直联邦学习算法进行标准化对比，有力推动了该领域研究的公平性与可复现性。

使用方法

FedAds数据集的使用旨在系统评估垂直联邦学习算法在转化率估计任务中的效能与隐私保护水平。研究者可依据数据集提供的特征划分，模拟双参与方的联邦训练环境，其中非标签方持有部分特征，标签方持有其余特征及转化标签。在效能评估方面，可通过划分部分训练样本作为未对齐数据，测试算法利用本地样本提升模型性能的能力，并使用AUC与负对数似然作为排名与校准性能的衡量指标。隐私评估则侧重于防御标签推断攻击，通过比较不同防护策略下攻击者恢复真实标签的泄漏AUC相对改进度，以衡量算法的隐私保护强度。数据集已集成于开源框架，支持多种神经网络基模型的便捷实验，为垂直联邦学习与转化率估计的前沿研究提供了标准化、可扩展的基准平台。

背景与挑战

背景概述

在数字广告与推荐系统领域，转化率（CVR）估计是预测用户点击广告后发生购买等转化行为概率的核心任务，直接影响广告排序与出价策略的效能。传统上，在线媒体平台拥有用户浏览兴趣与点击反馈数据，而需求方广告平台则掌握用户点击后的停留时长与转化决策等行为，双方数据互补但因隐私法规限制无法直接共享。为在保障数据隐私的前提下实现精准CVR估计，纵向联邦学习（vFL）技术应运而生，其允许参与方在不交换原始数据的情况下协同训练模型。然而，该领域长期缺乏标准化评估体系，现有研究多采用公开数据集通过手工特征划分模拟vFL环境，导致算法对比有失公允。为此，阿里巴巴集团与香港中文大学（深圳）、香港科技大学（广州）的研究团队于2023年联合推出了FedAds基准，这是首个专注于隐私保护CVR估计与纵向联邦学习的大规模评测框架，其基于阿里巴巴广告平台的真实业务日志构建，包含超过1130万样本，旨在为vFL算法的效果与隐私评估提供系统化、标准化的基础设施，推动广告系统与隐私计算研究的交叉创新。

当前挑战

FedAds基准致力于解决两大核心挑战：其一，在领域问题层面，CVR估计本身面临数据稀疏性与正负样本极端不平衡的难题，而纵向联邦学习的引入虽能整合多方特征，却受限于对齐样本规模，导致模型表达能力受限；同时，vFL框架在训练中需交换中间表征与梯度，尽管不直接暴露原始数据，但研究表明其仍存在标签推断与输入重建等隐私泄露风险，如何在保障效果的同时强化隐私保护成为关键挑战。其二，在数据集构建过程中，研究团队需从真实的广告投放业务日志中提取并整合来自媒体平台与广告平台的双边特征，涉及复杂的用户行为对齐、特征工程与隐私脱敏处理；此外，为模拟真实vFL环境中的未对齐数据，需对样本进行合理划分与特征掩码，并设计兼顾评估公平性与可复现性的数据划分策略，这些都对数据集的构建质量与评测效度提出了极高要求。

常用场景

经典使用场景

在在线广告与推荐系统领域，转化率（CVR）估计是提升广告投放效果的核心环节。FedAds数据集作为首个面向垂直联邦学习的CVR估计基准，其经典使用场景在于为学术界与工业界提供一个标准化、系统化的评估平台。该数据集源自阿里巴巴广告平台的真实业务日志，涵盖了用户点击前后的完整行为序列，使得研究者能够在保护数据隐私的前提下，模拟广告发布方与需求方平台之间的联邦协作训练过程。通过提供大规模的真实世界样本，FedAds使得各类垂直联邦学习算法能够在统一的实验设置下进行公平比较，从而推动隐私保护与模型效果之间的平衡研究。

衍生相关工作

FedAds数据集的发布催生并支撑了一系列垂直联邦学习领域的经典研究工作。在提升模型效果方面，诸如Diffu-AT、JPL、FedHSSL等方法利用该数据集验证了通过生成模型合成特征、跨视图训练或混合自监督学习来利用未对齐样本的有效性。在隐私保护方向，Marvell、MixPro等梯度扰动防御机制均在FedAds上进行了系统的标签推断攻击测试与性能评估。此外，数据集也促进了FedCVT、VFL-MPD等半监督与自监督联邦学习框架的演进，这些工作共同推动了垂直联邦学习在理论创新与工程实践上的深度融合，为后续研究提供了坚实的基准与比较基础。

数据集最近研究