reczoo/Criteo_x4

Name: reczoo/Criteo_x4
Creator: reczoo
Published: 2023-12-24 12:42:24
License: 暂无描述

Hugging Face2023-12-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/reczoo/Criteo_x4

下载链接

链接失效反馈

官方服务：

资源简介：

Criteo数据集是一个广泛用于点击率预测（CTR prediction）的基准数据集，包含大约一周的展示广告点击数据。该数据集包含13个数值特征字段和26个类别特征字段。按照AutoInt工作的设置，数据被随机分割为训练集、验证集和测试集，比例分别为8:1:1。数据集统计信息如下：Criteo_x4总共有45,840,617条数据，其中训练集36,672,493条，验证集4,584,062条，测试集4,584,062条。Criteo_x4_001和Criteo_x4_002是两种不同的预处理设置，分别采用了不同的离散化方法和类别特征处理方式。

提供机构：

reczoo

原始信息汇总

Criteo_x4 数据集概述

数据集描述

Criteo_x4 数据集是一个广泛使用的点击率（CTR）预测基准数据集，包含约一周的展示广告点击数据。该数据集包含13个数值特征字段和26个分类特征字段。数据集按照8:1:1的比例随机分为训练集、验证集和测试集。

数据集统计信息

数据集划分	总数	训练集	验证集	测试集
Criteo_x4	45,840,617	36,672,493	4,584,062	4,584,062

数据预处理设置

Criteo_x4_001

在此设置中，我们按照Criteo挑战赛获胜者的解决方案，将每个整数值x离散化为⌊log2(x)⌋（如果x > 2），否则x = 1。对于所有分类字段，我们将不频繁的特征替换为默认的<OOV>标记，阈值设置为min_category_count=10。我们固定embedding_dim=16，与AutoInt一致。

Criteo_x4_002

在此设置中，我们按照Criteo挑战赛获胜者的解决方案，将每个整数值x离散化为⌊log2(x)⌋（如果x > 2），否则x = 1。对于所有分类字段，我们将不频繁的特征替换为默认的<OOV>标记，阈值设置为min_category_count=2。我们固定embedding_dim=40。

数据完整性校验

数据文件的md5校验和如下：

bash $ md5sum train.csv valid.csv test.csv 4a53bb7cbc0e4ee25f9d6a73ed824b1a train.csv fba5428b22895016e790e2dec623cb56 valid.csv cfc37da0d75c4d2d8778e76997df2976 test.csv

搜集汇总

数据集介绍

构建方式

Criteo_x4数据集是一份面向点击率（CTR）预测的权威数据集，其数据来源于一周内的展示广告点击数据。该数据集包含了13个数值特征字段和26个分类特征字段。数据集的构建遵循了AutoInt工作中提出的设置，将数据随机划分为训练集、验证集和测试集，比例分别为8:1:1，确保了数据集的可用性和可靠性。

特点

Criteo_x4数据集的特点体现在其详尽的字段设置和严谨的数据划分上。数据集不仅包含了丰富的数值和分类特征，而且在处理分类字段时，对于不频繁出现的特征采用统一的<OOV>标记替代，这一做法提高了模型的泛化能力。此外，数据集的两种设置（Criteo_x4_001和Criteo_x4_002）在特征离散化和嵌入维度上有所不同，为研究者提供了多样化的实验条件。

使用方法

使用Criteo_x4数据集时，用户可以遵循数据集中的两种预设配置，根据不同的需求选择适合的设置。数据集的获取和验证通过HuggingFace的接口进行，确保了数据的完整性和一致性。用户在获取数据后，可以根据提供的md5sum值校验数据完整性，进而利用数据集进行模型训练、验证和测试，推动CTR预测领域的研究与应用。

背景与挑战

背景概述

Criteo_x4数据集是广告点击率（CTR）预测领域中广泛使用的一个基准数据集，其包含了大约一周的展示广告点击数据。该数据集由13个数值特征字段和26个分类特征字段组成。其创建时间是针对Criteo广告挑战赛，主要研究人员来自于多个学术机构和工业界，核心研究问题是如何准确预测广告的点击率。Criteo_x4数据集对广告投放优化、推荐系统等领域产生了深远的影响，被广泛应用于模型训练和性能评估。其影响力在相关学术文献中得以体现，如Song等人在2019年的CIKM会议上发表的AutoInt工作，以及Zhu等人在2021年的CIKM会议上提出的BARS-CTR开放基准。

当前挑战

Criteo_x4数据集在构建和应用过程中面临诸多挑战。首先，数据集的离散化处理需要合理设定阈值，以避免特征过多导致的计算复杂度和过拟合问题。其次，数据预处理中的特征嵌入维度选择对模型性能有显著影响，需要经过细致的实验来确定最佳值。此外，在数据集中，稀疏特征的处理是一个挑战，因为它们可能对模型的泛化能力产生重要影响。而对于研究领域问题，即点击率预测的挑战，主要在于如何准确捕捉用户意图和广告内容之间的复杂交互关系。

常用场景

经典使用场景

在计算广告领域，reczoo/Criteo_x4数据集被广泛用于点击率（CTR）预测的研究。该数据集包含约一周的展示广告点击数据，具备13个数值特征字段和26个分类特征字段。其经典的运用场景在于，通过训练模型预测用户对特定广告的点击概率，从而优化广告投放策略，提升广告效果。

解决学术问题

reczoo/Criteo_x4数据集解决了广告投放中如何精确预测用户点击行为的问题。通过该数据集，研究者能够探索并构建更为高效的CTR预测模型，进而提高广告系统的收益和投资回报率。此外，该数据集有助于推动广告算法领域的发展，提升算法的泛化能力和鲁棒性。

衍生相关工作

reczoo/Criteo_x4数据集衍生了诸多经典工作，如AutoInt模型，该模型通过自注意力机制自动学习特征交互，显著提升了CTR预测的准确性。此外，BARS-CTR作为开放性CTR预测基准，也是基于该数据集进行的一系列研究工作的成果之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集