five

reczoo/Avazu_x2

收藏
Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/Avazu_x2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约10天的移动广告点击数据,共有22个特征字段,包括用户特征和广告属性。按照AutoGroup论文中的设置,数据被随机分为80%的训练和验证集,20%的测试集。对于所有分类字段,通过设置min_category_count=20的阈值过滤不常见的特征,并用默认的<OOV>标记替换。数据统计信息显示总数据量为40,428,967条,其中训练集32,343,173条,测试集8,085,794条。

该数据集包含约10天的移动广告点击数据,共有22个特征字段,包括用户特征和广告属性。按照AutoGroup论文中的设置,数据被随机分为80%的训练和验证集,20%的测试集。对于所有分类字段,通过设置min_category_count=20的阈值过滤不常见的特征,并用默认的<OOV>标记替换。数据统计信息显示总数据量为40,428,967条,其中训练集32,343,173条,测试集8,085,794条。
提供机构:
reczoo
原始信息汇总

Avazu_x2 数据集概述

数据集描述

该数据集包含约10天的移动广告点击率数据,具有22个特征字段,包括用户特征和广告属性。按照AutoGroup工作的设置,我们随机将80%的数据用于训练和验证,剩余20%用于测试。对于所有分类字段,我们通过设置阈值min_category_count=20来过滤不频繁的特征,并用默认的<OOV>标记替换它们。

数据集统计

数据集 总数 训练集 验证集 测试集
Avazu_x2 40,428,967 32,343,173 8,085,794

数据完整性校验

bash $ md5sum train.csv test.csv c41d786896e2ebe68e08a022199f0ce8 train.csv e641ea94c72cdc99b49656d3404f536e test.csv

搜集汇总
数据集介绍
main_image_url
构建方式
在移动广告点击率预测领域,reczoo/Avazu_x2数据集的构建遵循了AutoGroup工作中相同的设定。该数据集汇聚了大约10天的带有标签的点击率数据,包含用户特征和广告属性共22个特征字段。数据集的构建者按照80%的数据用于训练和验证,剩余的20%作为测试集。对于所有分类字段,通过设置最小类别计数阈值min_category_count=20,过滤掉不频繁出现的特征,并以默认的<OOV>标记进行替换。
特点
reczoo/Avazu_x2数据集以其丰富的特征字段和大规模的数据量而显著。总记录数达40,428,967条,其中训练集有32,343,173条记录,测试集有8,085,794条记录。此数据集的特点在于其详尽的用户特征和广告属性,以及通过过滤不频繁特征后的数据清洗过程,确保了数据的质量和模型的泛化能力。
使用方法
用户可通过HuggingFace平台提供的链接下载数据集,并利用其内置的数据处理流程进行模型的训练和验证。数据集的md5sum校验码已提供,以确保数据完整性。在使用前,用户应先对数据进行解压和适当的预处理,包括处理<OOV>标记的缺失值,然后可根据具体的研究需求或预测任务,采用适当的机器学习模型进行训练和评估。
背景与挑战
背景概述
在移动广告领域,点击率(CTR)预测是提升广告投放效果的关键技术。Avazu_x2数据集,创建于2020年,由Bin Liu等人整理,旨在为CTR预测研究提供实验基础。该数据集汇聚了约10天的移动广告点击数据,包含用户特征和广告属性共22个字段,其独特的特征分组方法被广泛应用于高阶特征交互建模,对CTR预测领域产生了深远影响。
当前挑战
尽管Avazu_x2数据集为CTR预测研究提供了丰富的资源,但研究者在应用过程中仍面临诸多挑战。首先,数据集规模庞大,对计算资源提出了较高要求。其次,数据中存在大量稀疏特征,如何有效处理这些特征,提高模型泛化能力,是当前的主要挑战。此外,测试集的分布可能与训练集存在偏差,如何确保模型的鲁棒性,也是研究中的一个重要议题。
常用场景
经典使用场景
在移动广告点击率预测的研究领域,reczoo/Avazu_x2数据集被广泛采用,其经典的使用场景在于训练机器学习模型来预测用户对特定广告的点击行为。数据集包含用户特征和广告属性,为模型的训练提供了丰富的特征组合。
实际应用
在实际应用中,reczoo/Avazu_x2数据集的应用场景广泛,广告平台和营销机构可以利用基于该数据集训练的模型来优化广告投放方案,提高广告收益,同时也能够提升用户体验,减少无效广告的展示。
衍生相关工作
基于reczoo/Avazu_x2数据集的研究衍生出了多项相关工作,其中包括Bin Liu等人在SIGIR 2020上发表的AutoGroup工作,该研究提出了一种自动特征分组方法,用于建模CTR预测中的高阶特征交互,显著提高了预测模型的性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作