reczoo/Avazu_x4

Name: reczoo/Avazu_x4
Creator: reczoo
Published: 2023-12-24 12:41:15
License: 暂无描述

Hugging Face2023-12-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/reczoo/Avazu_x4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约10天的移动广告点击数据，共有22个特征字段，包括用户特征和广告属性。数据集被随机分为训练集、验证集和测试集，比例为8:1:1。此外，README还介绍了两种不同的预处理设置（Avazu_x4_001和Avazu_x4_002），分别对数据进行了不同的处理，如移除无用字段、转换时间戳字段、过滤不常见的分类特征等。

提供机构：

reczoo

原始信息汇总

Avazu_x4 数据集概述

数据集描述

Avazu_x4 数据集包含约10天的移动广告点击率数据，具有22个特征字段，包括用户特征和广告属性。数据集按照8:1:1的比例随机分为训练集、验证集和测试集。

数据集统计信息

数据集	总计	训练集	验证集	测试集
Avazu_x4	40,428,967	32,343,172	4,042,897	4,042,898

数据预处理设置

Avazu_x4_001

移除无用的 id 字段。
将时间戳字段转换为小时、工作日和是否周末三个字段。
对所有分类字段，通过设置阈值 min_category_count=2 过滤不频繁特征，并用默认的 <OOV> 标记替换。
固定嵌入维度 embedding_dim=16。

Avazu_x4_002

移除无用的 id 字段。
将时间戳字段转换为小时、工作日和是否周末三个字段。
对所有分类字段，通过设置阈值 min_category_count=1 过滤不频繁特征，并用默认的 <OOV> 标记替换。
固定嵌入维度 embedding_dim=40。

数据完整性校验

使用以下命令检查数据完整性：

bash $ md5sum train.csv valid.csv test.csv de3a27264cdabf66adf09df82328ccaa train.csv 33232931d84d6452d3f956e936cab2c9 valid.csv 3ebb774a9ca74d05919b84a3d402986d test.csv

搜集汇总

数据集介绍

构建方式

在构建Avazu_x4数据集时，研究者们精心选取了约10天的移动广告点击数据，涵盖了22个特征字段，包括用户特征和广告属性。数据集的划分遵循了AutoInt论文的设置，随机将数据分为训练集、验证集和测试集，比例为8:1:1。此外，数据预处理阶段移除了对点击率预测无用的‘id’字段，并将时间戳字段转换为小时、星期几和是否为周末三个字段。对于分类字段，通过设定最小类别计数阈值来过滤不频繁的特征，并用默认的‘<OOV>’标记替换。

特点

Avazu_x4数据集的显著特点在于其精细的预处理步骤和多样化的特征设置。数据集不仅移除了无用的‘id’字段，还对时间戳进行了细致的分解，增强了数据的时间维度特征。此外，通过设定不同的最小类别计数阈值，数据集提供了两种不同的预处理版本，分别适用于不同的模型需求，如AutoInt和FGCNN。这种灵活性使得Avazu_x4成为点击率预测研究中的宝贵资源。

使用方法

使用Avazu_x4数据集时，研究者可以根据具体需求选择不同的预处理版本。对于AutoInt模型，建议使用最小类别计数阈值为2的版本，并设置嵌入维度为16。而对于FGCNN模型，则应选择最小类别计数阈值为1的版本，并设置嵌入维度为40。数据集的训练、验证和测试集已经预先划分好，用户可以直接加载并用于模型训练和评估。此外，数据集的下载和使用可以通过HuggingFace平台进行，确保了使用的便捷性和数据完整性。

背景与挑战

背景概述

Avazu_x4数据集是由RecZoo团队创建，专注于移动广告点击率（CTR）预测的研究。该数据集包含了约10天的标记点击数据，涵盖22个特征字段，包括用户特征和广告属性。数据集的构建参考了AutoInt和FGCNN等重要研究工作，并进行了相应的预处理，如去除无用的‘id’字段和将时间戳转换为小时、工作日和是否周末等字段。Avazu_x4数据集的发布不仅为CTR预测领域提供了丰富的实验数据，还通过不同的预处理设置（如不同的嵌入维度）为研究者提供了多样化的实验环境，从而推动了该领域的技术进步。

当前挑战

Avazu_x4数据集在构建过程中面临多项挑战。首先，数据集的规模庞大，包含超过4000万条记录，这要求高效的存储和处理技术。其次，数据预处理步骤复杂，特别是对时间戳的处理和类别特征的过滤，这些步骤直接影响模型的性能。此外，如何选择合适的嵌入维度（如16或40）也是一个关键挑战，因为不同的嵌入维度可能会导致模型性能的显著差异。最后，数据集的多样性和复杂性要求研究者开发更加精细的特征工程和模型优化策略，以提高CTR预测的准确性和鲁棒性。

常用场景

经典使用场景

Avazu_x4数据集在移动广告点击率（CTR）预测领域具有经典应用场景。该数据集通过包含用户特征和广告属性的22个特征字段，提供了丰富的信息，使得研究者能够构建高效的点击率预测模型。通过将数据随机划分为训练集、验证集和测试集，研究者可以系统地评估模型的性能，尤其是在处理大规模数据时，Avazu_x4展现了其强大的实用性。

衍生相关工作

Avazu_x4数据集的发布和使用催生了一系列相关研究工作。例如，AutoInt模型利用该数据集进行自动特征交互学习，通过自注意力机制提升了点击率预测的准确性。此外，BARS-CTR基准测试框架也基于Avazu_x4数据集，为点击率预测模型提供了一个开放的评估平台，促进了该领域的标准化和透明化研究。这些工作不仅推动了点击率预测技术的发展，也为其他相关领域的研究提供了宝贵的参考。

数据集最近研究