criteo/criteo-attribution-dataset

Name: criteo/criteo-attribution-dataset
Creator: criteo
Published: 2024-03-28 08:53:42
License: 暂无描述

Hugging Face2024-03-28 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/criteo/criteo-attribution-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Criteo发布的实时流量数据样本，涵盖了30天的数据，每条记录对应一个展示给用户的横幅广告。数据集详细记录了每个广告展示的上下文信息、是否被点击、是否导致转化以及是否归因于Criteo。数据经过子采样和匿名化处理，以保护专有信息。数据集包含多个字段，如时间戳、用户ID、广告活动ID、是否转化、转化时间戳、转化ID、是否归因于Criteo、是否点击、点击位置、点击次数、成本、每次订单成本、上次点击后的时间以及9个上下文特征。数据集的主要应用包括归因建模、展示广告中的转化建模以及实时竞价的离线指标计算。

提供机构：

criteo

原始信息汇总

数据集概述

基本信息

名称: Criteo Attribution Modeling for Bidding Dataset
别名: criteo-attribution-dataset
许可证: cc-by-nc-sa-4.0
标签:
- criteo
- advertising
大小: 10M<n<100M
任务类别: tabular-classification

数据集内容

文件列表:
- README.md
- criteo_attribution_dataset.tsv.gz (623M compressed)
- Experiments.ipynb

数据描述

数据来源: 30天Criteo实时流量数据样本
记录内容: 每条记录对应一次展示给用户的广告（banner）
字段详情:
- timestamp: 展示时间戳
- uid: 用户唯一标识
- campaign: 广告活动唯一标识
- conversion: 是否发生转化（1为是，0为否）
- conversion_timestamp: 转化时间戳或-1（未观察到转化）
- conversion_id: 转化唯一标识或-1（未发生转化）
- attribution: 转化是否归因于Criteo（1为是，0为否）
- click: 是否点击（1为是，0为否）
- click_pos: 点击位置
- click_nb: 点击次数
- cost: Criteo支付的价格（转换后的版本）
- cpo: 归因转化时的成本每单（转换后的版本）
- time_since_last_click: 自上次点击以来的时间（秒）
- cat[1-9]: 上下文特征

关键数据指标

未压缩大小: 2.4Gb
展示次数: 16.5M
转化次数: 45K
广告活动数: 700

应用任务

归因建模
展示广告中的转化建模
实时竞价的离线指标计算

搜集汇总

数据集介绍

构建方式

该数据集Criteo Attribution Modeling for Bidding Dataset的构建，源于对Criteo实时流量数据的采样。数据集涵盖了30天的Criteo实时流量，每一条记录代表向用户展示的一次广告印象。数据经过匿名化处理，保留了广告印象的上下文信息、点击情况、转化情况以及是否归因于Criteo的转化，确保了数据研究的可行性与隐私保护。

特点

本数据集的特点在于其详尽的广告印象记录，包含时间戳、用户标识、广告活动标识、转化情况等关键信息。数据集采用TSV格式存储，并压缩至623M大小，共包含16,500,000条广告印象记录和45,000次转化。此外，数据集还提供了上下文特征，这些特征经过哈希技巧映射至固定维度的空间，便于模型学习和分析。

使用方法

使用该数据集时，用户需先解压数据文件，并利用Python等科学计算库进行数据加载和分析。数据集附带的Jupyter Notebook 'Experiments.ipynb' 提供了代码和工具，可用于复现论文中的结果，也可作为进一步研究的起点。用户在研究过程中，应遵守Creative Commons BY-NC-SA 4.0许可证的规定，并在使用数据集时引用相关论文。

背景与挑战

背景概述

在数字广告领域，归因模型是提高广告投放效率和效果的关键技术之一。Criteo Attribution Modeling for Bidding Dataset数据集由Criteo Research团队与Facebook合作，于2017年伴随论文《Attribution Modeling Increases Efficiency of Bidding in Display Advertising》一同发布，旨在为研究人员提供实时的广告流量数据，以探究归因模型在提高广告竞价效率方面的应用。该数据集涵盖了30天的Criteo实时流量数据，记录了每一次广告展示的详细信息，包括用户行为、广告效果及归因情况，为广告投放归因领域的研究提供了宝贵的实验资源。

当前挑战

该数据集相关的挑战主要体现在两个方面：一是领域问题上的挑战，如何在海量的广告数据中准确建模用户行为，有效预测广告的点击和转化，以及正确归因广告效果；二是构建过程中的挑战，包括如何处理和存储大规模实时数据，保证数据的安全性和隐私性，同时确保数据的真实性和可用性。这些挑战对于提升广告投放的精准性和效率，减少无效广告投放，具有重要的研究价值和实际意义。

常用场景

经典使用场景

在广告投放与效果评估领域，criteo-attribution-dataset数据集被广泛应用于归因模型的研究与开发。该数据集记录了30天的Criteo实时流量数据，包含每次展示的详细上下文信息、点击情况、转化情况以及归因情况。研究者通常使用此数据集来构建和评估基于规则或模型的归因模型，以提高广告竞价效率。

解决学术问题

该数据集解决了广告领域中的归因问题，即如何准确评估每次广告展示对最终转化的贡献。通过分析数据集中的归因信息，研究者能够开发出更高效的归因模型，进而优化广告的投放策略，提高投资回报率。这对于广告主和广告平台来说具有重要的经济意义。

衍生相关工作

基于criteo-attribution-dataset数据集，学术界和工业界已衍生出多项相关工作，包括但不限于归因模型的改进、实时竞价系统的优化、以及广告效果评估的新方法。这些工作进一步推动了在线广告领域的发展，为广告主和广告平台带来了实际的价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集