CriteoPrivateAd
收藏arXiv2025-02-19 更新2025-02-19 收录
下载链接:
https://huggingface.co/datasets/criteo/CriteoPrivateAd
下载链接
链接失效反馈官方服务:
资源简介:
CriteoPrivateAd数据集是由Criteo AI Lab和Criteo共同创建的一个真实世界的匿名广告竞价数据集。该数据集包含连续30天的1000万次广告展示数据,超过100个相关特征,用于学习常见的竞价模型。数据集通过匿名化处理保护用户隐私,同时提供了丰富的特征和标签信息,用于模拟Privacy Sandbox API和用户级别的差分隐私,旨在帮助研究人员和工程师评估和设计私密的广告竞价系统。
The CriteoPrivateAd dataset is a real-world anonymous advertising bidding dataset jointly created by Criteo AI Lab and Criteo. It encompasses 10 million ad impression records spanning 30 consecutive days, with over 100 relevant features, and is intended for learning common advertising bidding models. The dataset has undergone anonymization to protect user privacy, while providing rich feature and label information to simulate the Privacy Sandbox API and user-level differential privacy, aiming to help researchers and engineers evaluate and design privacy-preserving advertising bidding systems.
提供机构:
Criteo AI Lab, Paris, France;Criteo, Paris, France
创建时间:
2025-02-18
原始信息汇总
数据集概述
数据集名称
CriteoPrivateAd
数据集描述
CriteoPrivateAd 是一个大规模的匿名化广告竞价数据集,旨在促进隐私保护机器学习在广告竞价场景中的应用。该数据集包含 30 天的 Criteo 实时数据样本,匿名化处理以模仿广告竞价引擎的生产性能,用于评估隐私限制下的广告性能。
数据集组成
- 数据集包含 100M 条匿名化记录,每条记录代表一个广告展示(banner)。
- 每条记录包含以下内容:
- 按广告系列、发布商、用户和日期细分的 ID。
- 4 个标签:点击、点击后访问广告商网站、点击后访问广告商网站(即访问后有一次广告商事件)、点击带来的销售数量。
- 超过 100 个特征,分为 5 个类别,根据其性质、隐私限制和推断时间点进行分组。
day_int字段用于数据集的划分和模型初始化。- 关于转化延迟的信息,以模拟 Privacy Sandbox API 的工作方式。
- 从请求时间戳到点击或销售事件的时间差。
- 同一天同一用户的展示顺序。
数据集格式
- 数据集分为 30 个 parquet 文件,每个文件代表一天的数据。
- 包含
event_per_user_contribution.csv文件,用于构建重要性抽样比率和用户级别的差分隐私。
性能指标
- 适用于点击和转化估计问题的最佳指标是日志似然性(LLH)和相对日志似然性提升(LLH-CompVN)。
- 校准度,定义为预测总和与验证标签总和的比率,对于竞价应用应接近 1。
基线模型
- 训练期为第 1 到 25 天,验证期为第 26 到 30 天。
- 选择的损失函数是加权 LLH-CompVN。
- 基线结果包括不同点击率(CTR)下的 Landed Click | Display、Sales | Landed Click 和 Sales | Display。
许可
- 数据集在 cc-by-sa-4.0 许可下发布。
引用
- 如果在研究中使用该数据集,请使用以下 BibTeX 引用格式。
搜集汇总
数据集介绍

构建方式
CriteoPrivateAd数据集的构建方式旨在模拟现实世界中的广告竞价场景,同时遵守隐私保护的规定。该数据集由Criteo公司生产日志的匿名化版本组成,涵盖了30天的数据,包含超过100个特征。为了保护用户隐私,特征值通过哈希和单调变换进行了匿名化处理。此外,数据集的设计考虑了浏览器厂商的隐私沙盒提案,如Chrome的Privacy Sandbox,确保了数据集在隐私保护的同时能够用于训练和评估广告竞价模型。数据集中的特征被分为五类,以模拟不同类型的数据访问权限和隐私保护级别。
特点
CriteoPrivateAd数据集的特点在于其规模庞大、特征丰富,并且专为评估隐私保护下的广告竞价模型而设计。该数据集包含了超过1亿次的广告展示数据,以及超过100个与广告竞价模型相关的特征。数据集的构建考虑了不同类型的数据访问权限和隐私保护级别,包括用户级别的差分隐私保护。此外,数据集还提供了模拟Chrome Privacy Sandbox API所需的信息,如用户ID、发布者ID、活动ID和时间戳等,使得研究人员能够评估和测试隐私保护下的广告竞价模型。CriteoPrivateAd数据集是广告技术领域的一个重要资源,为评估和改进隐私保护下的广告竞价模型提供了宝贵的数据基础。
使用方法
CriteoPrivateAd数据集的使用方法包括以下几个步骤:首先,用户需要从Hugging Face平台上下载数据集。然后,用户可以根据自己的研究需求选择合适的特征和标签进行模型训练和评估。在训练过程中,用户需要根据数据集中的隐私保护级别选择合适的差分隐私算法,以确保用户隐私的安全。此外,用户还可以使用数据集中的模拟Chrome Privacy Sandbox API的信息,来评估和测试隐私保护下的广告竞价模型。CriteoPrivateAd数据集是一个开源的数据集,用户可以自由地使用和分享数据集,以促进广告技术领域的研究和创新。
背景与挑战
背景概述
随着消费者对隐私的关注以及相关立法的影响,浏览器供应商(如Safari、Mozilla Firefox和Google Chrome)开始限制跨域用户信息的收集,特别是在未来逐步淘汰第三方cookie的情况下。这种操作限制引发了在线广告生态系统的深刻变革,该生态系统对于资助大部分开放互联网至关重要。CriteoPrivateAd数据集的创建旨在应对这一挑战,它是一个与主要浏览器供应商提案(如Chrome Privacy Sandbox)设计相一致的大型匿名投标数据集。该数据集由Criteo AI Lab在巴黎,法国创建,旨在为研究人员和工程师提供一个丰富的地面真值,以评估隐私保护和广告功能之间的权衡。CriteoPrivateAd数据集包含了30天内超过1亿次展示的数据,以及超过100个相关特征,用于学习常见的投标模型,并提供了足够的匿名化数据,以模拟Privacy Sandbox API和用户级差异隐私。该数据集对于设计私密的广告系统具有重要意义,并已在Hugging Face上开源。
当前挑战
CriteoPrivateAd数据集面临的挑战主要涉及隐私保护与广告功能之间的权衡。首先,数据集需要确保用户隐私,同时提供足够的信息来学习投标模型。其次,由于数据集的匿名化,研究人员和工程师需要解决由此带来的数据可用性和模型性能下降的问题。此外,数据集需要适应不断变化的浏览器隐私政策,如Chrome Privacy Sandbox的更新。最后,数据集的设计需要考虑到未来开放网络中无法直接访问跨域用户特征的情况,这对于广告行业来说是一个重大挑战。
常用场景
经典使用场景
CriteoPrivateAd数据集主要用于评估和设计在线广告中的私有广告系统。这个数据集提供了丰富的特征,可以用于学习广告竞价模型,并在多种隐私约束下进行测试。它特别适合评估第三方cookie被淘汰后,跨域用户信号消失对广告技术公司的影响,以及设计和测试私有竞价优化方法。此外,CriteoPrivateAd数据集还可以用于评估聚合API在测量和学习竞价模型方面的相关性。
衍生相关工作
CriteoPrivateAd数据集衍生了多项相关研究工作,包括基于差分隐私的竞价模型训练框架、私有广告系统中的用户级差分隐私框架,以及从标签比例中学习的竞价模型训练框架。这些研究工作利用CriteoPrivateAd数据集的特性,设计和测试了不同的私有广告优化策略,以保护用户数据并确保在线广告的经济可行性。这些研究成果有助于推动在线广告行业的技术创新和发展。
数据集最近研究
最新研究方向
随着消费者隐私意识的提升和浏览器厂商对第三方cookie的限制,在线广告生态系统正在经历深刻的变革。CriteoPrivateAd数据集的发布为研究人员和工程师提供了一个重要的工具,用于评估在隐私保护约束下在线广告系统的性能和效用。该数据集的设计旨在模拟Chrome Privacy Sandbox等主要浏览器厂商的隐私提案,并包含丰富的匿名化数据,使得研究者能够评估和设计隐私保护的广告系统。当前的研究方向集中在利用隐私增强技术,如差分隐私、安全多方计算或可信执行环境,以在保护用户隐私的同时维持广告功能的完整性。此外,该数据集还促进了在隐私广告系统中的归因和测量方面的讨论,如隐私保护归因(PPA)和Cookie Monster等提案。这些研究对于平衡隐私保护和在线广告的经济价值至关重要,并为未来的在线广告生态系统的发展提供了有价值的见解。
相关研究论文
- 1CriteoPrivateAd: A Real-World Bidding Dataset to Design Private Advertising SystemsCriteo AI Lab, Paris, France; Criteo, Paris, France · 2025年
以上内容由遇见数据集搜集并总结生成



