five

criteo/criteo-uplift|广告效果评估数据集|因果推断数据集

收藏
hugging_face2024-06-12 更新2024-06-15 收录
广告效果评估
因果推断
下载链接:
https://hf-mirror.com/datasets/criteo/criteo-uplift
下载链接
链接失效反馈
资源简介:
该数据集是通过整合多个增量测试的结果构建的,这些测试是一种特定的随机试验程序,其中随机部分的人群被阻止接受广告。数据集包含2500万行,每行代表一个用户,包含11个特征、一个处理指标和两个标签(访问和转化)。特征值以浮点数形式表示,处理组和标签以二进制形式表示。为了保护隐私,数据进行了非均匀子采样,特征名称被匿名化,特征值被随机投影,以保持预测能力的同时防止恢复原始特征或用户上下文。数据集的主要用途是用于提升建模、个体处理效果预测/异质处理效果的基准测试。
提供机构:
criteo
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-sa-4.0
  • 标签: criteo, advertising, causality
  • 美观名称: criteo-uplift
  • 大小类别: 10M<n<100M
  • 任务类别: tabular-classification

数据描述

  • 数据来源: 该数据集是通过多个增量测试(一种随机试验程序,其中随机部分人口被阻止接收广告)的结果组合而成。
  • 数据规模: 包含2500万行,每行代表一个用户,具有11个特征、一个处理指示符和2个标签(访问和转换)。
  • 字段描述:
    • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: 特征值(密集,浮点数)
    • treatment: 处理组(1 = 处理,0 = 对照)
    • conversion: 用户是否发生转换(二进制,标签)
    • visit: 用户是否发生访问(二进制,标签)
    • exposure: 处理效果,用户是否有效暴露(二进制)

隐私保护

  • 数据已经进行了非均匀子采样,以防止从数据集中推断出原始增量水平,同时保持一个现实且具有挑战性的基准。特征名称已匿名化,其值已随机投影,以保持预测能力,同时实际上不可能恢复原始特征或用户上下文。

关键数据

  • 格式: CSV
  • 大小: 297M(压缩)
  • 行数: 13,979,592
  • 平均访问率: 0.046992
  • 平均转换率: 0.00292
  • 处理比率: 0.85

任务和代码

  • 主要用途: 用于基准测试Uplift Modeling、个体处理效果预测/异质处理效果。
  • 参考论文: ITE and UM
  • 参考实验代码和评估: Github
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合多个增量测试的结果构建而成,这些测试采用了一种特定的随机化试验程序,即随机阻止部分人群接收广告。数据集包含2500万行,每行代表一个用户,具有11个特征、一个处理指示符以及两个标签(访问和转化)。为保护隐私,数据进行了非均匀子采样,使得原始增量水平无法从数据集中推断,同时保留了现实且具有挑战性的基准。特征名称被匿名化,其值经过随机投影,以保持预测能力的同时,几乎不可能恢复原始特征或用户上下文。
特点
该数据集的主要特点在于其大规模和隐私保护措施。数据集包含2500万条记录,每条记录代表一个用户,具有11个特征、一个处理指示符和两个标签。数据经过非均匀子采样和特征匿名化处理,确保了数据的隐私性和安全性。此外,数据集的平均访问率为0.046992,平均转化率为0.00292,处理比率为0.85,这些统计数据为研究提供了丰富的背景信息。
使用方法
该数据集主要用于基准测试Uplift建模和个体处理效应预测/异质处理效应的方法。研究者可以通过分析数据集中的特征、处理指示符和标签,评估不同模型在预测用户行为和处理效果方面的表现。参考实验代码和评估可在相关GitHub仓库中找到,为研究者提供了实现和验证其方法的平台。使用时,请引用相关的学术论文以确保学术诚信。
背景与挑战
背景概述
在广告与因果推断领域,Criteo-uplift数据集的发布标志着大规模增量建模研究的重要里程碑。该数据集由Criteo AI Lab与LIG, Grenoble INP的研究团队共同创建,于2018年伴随论文《A Large Scale Benchmark for Uplift Modeling》在AdKDD 2018 Workshop上发布。其核心研究问题聚焦于通过增量测试(incrementality tests)评估广告对用户行为的实际影响,特别是通过随机化实验设计,分析广告干预对用户访问与转化行为的异质性效应。该数据集的发布不仅为因果推断与个性化广告策略研究提供了丰富的实证数据,还为提升建模方法的鲁棒性与准确性奠定了基础。
当前挑战
Criteo-uplift数据集在构建过程中面临多重挑战。首先,数据集通过非均匀采样以保护用户隐私,同时确保原始增量水平无法被推断,这增加了模型训练的复杂性。其次,特征的匿名化与随机投影处理在保留预测能力的同时,使得恢复原始特征或用户上下文变得几乎不可能,这对模型的解释性与可解释性提出了更高要求。此外,数据集的规模庞大(25M行),且包含多个二元标签(如访问与转化),如何在处理大规模数据的同时保持计算效率与模型性能,是该数据集应用中的另一大挑战。
常用场景
经典使用场景
在广告和因果推断领域,criteo-uplift数据集的经典使用场景主要集中在提升建模(Uplift Modeling)和个体治疗效应预测(Individual Treatment Effect prediction)。该数据集通过模拟随机化实验,提供了用户在广告干预下的行为数据,包括访问和转化等二元标签。研究者可以利用这些数据训练模型,评估不同广告策略对用户行为的实际影响,从而优化广告投放策略。
衍生相关工作
基于criteo-uplift数据集,研究者们开发了多种提升建模和个体治疗效应预测的方法。例如,一些研究工作提出了新的算法来提高预测精度,而另一些则专注于解决数据稀疏性和特征选择问题。此外,该数据集还激发了关于因果推断和机器学习结合的研究,推动了相关领域的技术进步。
数据集最近研究
最新研究方向
在广告与因果推断领域,criteo-uplift数据集的最新研究方向主要聚焦于提升建模(Uplift Modeling)和个体治疗效应预测(Individual Treatment Effect prediction)。该数据集通过大规模随机化实验构建,提供了丰富的用户特征和治疗效果标签,为研究者提供了评估和优化因果推断模型的理想平台。近年来,随着因果推断在广告策略优化中的重要性日益凸显,该数据集成为了研究异质性治疗效应(Heterogeneous Treatment Effect)的前沿工具。通过分析用户在不同广告干预下的行为变化,研究者能够更精准地制定个性化广告策略,从而提升广告投放的效率和效果。这一研究方向不仅推动了广告技术的创新,也为其他领域的因果推断应用提供了宝贵的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FEVER

FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。

fever.ai 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录