iPinyou, criteo

github2021-07-27 更新2024-05-31 收录

下载链接：

https://github.com/try-skycn/APEXDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

iPinyou数据集是一个标准版本，包含点击与否的第一字段和28个分类字段，训练集包含15395258个样本，测试集包含4100716个样本，正样本占总样本的0.075%。criteo数据集使用day_6.gz到day_12.gz作为训练集，day_13.gz作为测试集，采用负采样，正样本占总样本的50%。

The iPinyou dataset is a standard version that includes a first field indicating whether a click occurred or not, along with 28 categorical fields. The training set consists of 15,395,258 samples, while the test set contains 4,100,716 samples, with positive samples accounting for 0.075% of the total. The Criteo dataset utilizes day_6.gz through day_12.gz as the training set and day_13.gz as the test set, employing negative sampling with positive samples making up 50% of the total.

创建时间：

2017-03-17

原始信息汇总

数据集概述

数据集名称

iPinyou
criteo

数据集版本

标准版本，特定阈值选择

数据集特征

iPinyou:

阈值选择：5
字段：
- 第一个字段表示点击与否
- 其他28个字段为分类字段
原始数据集大小：
- 训练集：15395258样本
- 测试集：4100716样本
正样本比例：0.075%

criteo:

阈值选择：20
训练集使用文件：day_6.gz 至 day_12.gz
测试集使用文件：day_13.gz
使用负样本下采样，正样本比例：50%

数据集使用方法

使用apexdsets Python包进行数据集操作
主要功能包括：
- datapath(dataname)：返回数据集文件的绝对路径
- CTRLoader类：用于加载和处理数据集
  - __init__(datapath)：构造函数，初始化数据加载器
  - meta(key)：获取数据集元信息
  - data_generator(dsetname, batch_size, unified_index=True)：生成数据批次
  - unified_size：总分类数属性

搜集汇总

数据集介绍

构建方式

iPinyou和criteo数据集的构建基于在线广告点击率预测的需求，采用了特定的阈值筛选方法。iPinyou数据集通过设定点击次数的阈值为5，筛选出具有显著点击行为的样本，保留了28个分类字段。criteo数据集则通过设定阈值为20，并使用负样本下采样技术，确保了正负样本的平衡。训练集和测试集的划分分别基于时间序列和特定文件的选择，确保了数据的时效性和代表性。

特点

iPinyou数据集包含15395258个训练样本和4100716个测试样本，点击率仅为0.075%，反映了真实广告点击行为的稀疏性。criteo数据集通过负样本下采样，将正样本比例提升至50%，显著提高了模型的训练效率。两个数据集均提供了丰富的元信息，包括字段名称、大小、数据类型以及分类索引映射，便于用户深入理解数据结构和进行特征工程。

使用方法

用户可通过Python包`apexdsets`加载数据集，使用`CTRLoader`类进行数据读取和预处理。通过`datapath`方法获取数据集路径，`meta`方法查询元信息，`data_generator`方法生成批量数据。用户可根据需求选择是否统一分类索引，灵活调整数据加载方式。该工具包的设计简洁高效，适用于大规模点击率预测模型的训练和评估。

背景与挑战

背景概述

iPinyou和Criteo数据集是广告点击率预测领域的重要基准数据集，广泛应用于在线广告投放和推荐系统的研究中。iPinyou数据集由APEX实验室发布，主要聚焦于实时竞价广告（RTB）场景，旨在通过分析用户行为数据来预测广告点击率。Criteo数据集则源于Criteo公司，专注于展示广告的点击率预测，其数据规模庞大且特征丰富。这两个数据集的发布为广告技术领域的研究提供了宝贵的数据资源，推动了机器学习模型在广告点击率预测中的应用与发展。

当前挑战

iPinyou和Criteo数据集在应用过程中面临多重挑战。首先，广告点击率预测问题本身具有高度不平衡性，正样本（点击）占比极低，这要求模型具备较强的类别不平衡处理能力。其次，数据集中包含大量高维稀疏特征，尤其是类别型特征，如何有效处理这些特征并提取有用信息是模型设计的关键。此外，数据集的构建过程中还面临数据清洗、特征选择和阈值设定的挑战，例如iPinyou数据集通过设定阈值来筛选特征，而Criteo数据集则采用了负样本下采样技术以平衡正负样本比例。这些挑战对模型的泛化能力和计算效率提出了更高的要求。

常用场景

经典使用场景

iPinyou和criteo数据集广泛应用于在线广告点击率预测（CTR）的研究中。这些数据集通过提供大量的用户点击行为数据，帮助研究人员构建和优化点击率预测模型。特别是在展示广告和实时竞价广告系统中，这些数据集为模型训练和评估提供了标准化的基准。

解决学术问题

iPinyou和criteo数据集解决了在线广告领域中的关键学术问题，如高维稀疏数据的处理、特征工程的优化以及点击率预测模型的性能提升。通过提供丰富的用户行为数据和广告展示信息，这些数据集为研究人员提供了探索复杂机器学习算法的实验平台，推动了广告推荐系统的技术进步。

衍生相关工作

基于iPinyou和criteo数据集，许多经典的研究工作得以展开。例如，研究人员提出了多种深度学习模型，如基于注意力机制的CTR预测模型和基于图神经网络的广告推荐系统。这些工作不仅提升了点击率预测的准确性，还为广告推荐系统的设计提供了新的思路。此外，这些数据集还催生了一系列关于数据稀疏性处理和特征交互优化的研究，推动了广告技术领域的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集