five

criteo/criteo-attribution-dataset

收藏
Hugging Face2024-03-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/criteo/criteo-attribution-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Criteo发布的实时流量数据样本,涵盖了30天的数据,每条记录对应一个展示给用户的横幅广告。数据集详细记录了每个广告展示的上下文信息、是否被点击、是否导致转化以及是否归因于Criteo。数据经过子采样和匿名化处理,以保护专有信息。数据集包含多个字段,如时间戳、用户ID、广告活动ID、是否转化、转化时间戳、转化ID、是否归因于Criteo、是否点击、点击位置、点击次数、成本、每次订单成本、上次点击后的时间以及9个上下文特征。数据集的主要应用包括归因建模、展示广告中的转化建模以及实时竞价的离线指标计算。

该数据集是Criteo发布的实时流量数据样本,涵盖了30天的数据,每条记录对应一个展示给用户的横幅广告。数据集详细记录了每个广告展示的上下文信息、是否被点击、是否导致转化以及是否归因于Criteo。数据经过子采样和匿名化处理,以保护专有信息。数据集包含多个字段,如时间戳、用户ID、广告活动ID、是否转化、转化时间戳、转化ID、是否归因于Criteo、是否点击、点击位置、点击次数、成本、每次订单成本、上次点击后的时间以及9个上下文特征。数据集的主要应用包括归因建模、展示广告中的转化建模以及实时竞价的离线指标计算。
提供机构:
criteo
原始信息汇总

数据集概述

基本信息

  • 名称: Criteo Attribution Modeling for Bidding Dataset
  • 别名: criteo-attribution-dataset
  • 许可证: cc-by-nc-sa-4.0
  • 标签:
    • criteo
    • advertising
  • 大小: 10M<n<100M
  • 任务类别: tabular-classification

数据集内容

  • 文件列表:
    • README.md
    • criteo_attribution_dataset.tsv.gz (623M compressed)
    • Experiments.ipynb

数据描述

  • 数据来源: 30天Criteo实时流量数据样本
  • 记录内容: 每条记录对应一次展示给用户的广告(banner)
  • 字段详情:
    • timestamp: 展示时间戳
    • uid: 用户唯一标识
    • campaign: 广告活动唯一标识
    • conversion: 是否发生转化(1为是,0为否)
    • conversion_timestamp: 转化时间戳或-1(未观察到转化)
    • conversion_id: 转化唯一标识或-1(未发生转化)
    • attribution: 转化是否归因于Criteo(1为是,0为否)
    • click: 是否点击(1为是,0为否)
    • click_pos: 点击位置
    • click_nb: 点击次数
    • cost: Criteo支付的价格(转换后的版本)
    • cpo: 归因转化时的成本每单(转换后的版本)
    • time_since_last_click: 自上次点击以来的时间(秒)
    • cat[1-9]: 上下文特征

关键数据指标

  • 未压缩大小: 2.4Gb
  • 展示次数: 16.5M
  • 转化次数: 45K
  • 广告活动数: 700

应用任务

  • 归因建模
  • 展示广告中的转化建模
  • 实时竞价的离线指标计算
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集Criteo Attribution Modeling for Bidding Dataset的构建,源于对Criteo实时流量数据的采样。数据集涵盖了30天的Criteo实时流量,每一条记录代表向用户展示的一次广告印象。数据经过匿名化处理,保留了广告印象的上下文信息、点击情况、转化情况以及是否归因于Criteo的转化,确保了数据研究的可行性与隐私保护。
特点
本数据集的特点在于其详尽的广告印象记录,包含时间戳、用户标识、广告活动标识、转化情况等关键信息。数据集采用TSV格式存储,并压缩至623M大小,共包含16,500,000条广告印象记录和45,000次转化。此外,数据集还提供了上下文特征,这些特征经过哈希技巧映射至固定维度的空间,便于模型学习和分析。
使用方法
使用该数据集时,用户需先解压数据文件,并利用Python等科学计算库进行数据加载和分析。数据集附带的Jupyter Notebook 'Experiments.ipynb' 提供了代码和工具,可用于复现论文中的结果,也可作为进一步研究的起点。用户在研究过程中,应遵守Creative Commons BY-NC-SA 4.0许可证的规定,并在使用数据集时引用相关论文。
背景与挑战
背景概述
在数字广告领域,归因模型是提高广告投放效率和效果的关键技术之一。Criteo Attribution Modeling for Bidding Dataset数据集由Criteo Research团队与Facebook合作,于2017年伴随论文《Attribution Modeling Increases Efficiency of Bidding in Display Advertising》一同发布,旨在为研究人员提供实时的广告流量数据,以探究归因模型在提高广告竞价效率方面的应用。该数据集涵盖了30天的Criteo实时流量数据,记录了每一次广告展示的详细信息,包括用户行为、广告效果及归因情况,为广告投放归因领域的研究提供了宝贵的实验资源。
当前挑战
该数据集相关的挑战主要体现在两个方面:一是领域问题上的挑战,如何在海量的广告数据中准确建模用户行为,有效预测广告的点击和转化,以及正确归因广告效果;二是构建过程中的挑战,包括如何处理和存储大规模实时数据,保证数据的安全性和隐私性,同时确保数据的真实性和可用性。这些挑战对于提升广告投放的精准性和效率,减少无效广告投放,具有重要的研究价值和实际意义。
常用场景
经典使用场景
在广告投放与效果评估领域,criteo-attribution-dataset数据集被广泛应用于归因模型的研究与开发。该数据集记录了30天的Criteo实时流量数据,包含每次展示的详细上下文信息、点击情况、转化情况以及归因情况。研究者通常使用此数据集来构建和评估基于规则或模型的归因模型,以提高广告竞价效率。
解决学术问题
该数据集解决了广告领域中的归因问题,即如何准确评估每次广告展示对最终转化的贡献。通过分析数据集中的归因信息,研究者能够开发出更高效的归因模型,进而优化广告的投放策略,提高投资回报率。这对于广告主和广告平台来说具有重要的经济意义。
衍生相关工作
基于criteo-attribution-dataset数据集,学术界和工业界已衍生出多项相关工作,包括但不限于归因模型的改进、实时竞价系统的优化、以及广告效果评估的新方法。这些工作进一步推动了在线广告领域的发展,为广告主和广告平台带来了实际的价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作