iPinYou, Criteo, Avazu, Criteo_Challenge
收藏github2023-12-07 更新2024-05-31 收录
下载链接:
https://github.com/Atomu2014/Ads-RecSys-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含16个分类特征,如weekday, hour, IP, region等,其中slotwidth和slotheight被视为分类特征因为它们只有少数值,slotprice通过阈值0, 10, 50, 100进行离散化。尽管原始数据日志包含超过30个特征,但我们并未使用所有这些特征,因为一些特征是唯一ID,仅出现一次,对预测无帮助;一些特征与拍卖/印象相关的价格不能用于预测;用户标签存在泄露问题。经过独热编码后,特征空间接近900k。
This dataset comprises 16 categorical features, such as weekday, hour, IP, region, etc. Among these, slotwidth and slotheight are treated as categorical features due to their limited number of values, and slotprice is discretized using thresholds of 0, 10, 50, and 100. Although the original data logs contain over 30 features, not all were utilized. This exclusion is because some features are unique IDs that appear only once and offer no predictive value; others relate to auction/impression prices and are unsuitable for prediction; and user tags present leakage issues. After one-hot encoding, the feature space approaches 900k.
创建时间:
2017-04-18
原始信息汇总
数据集概述
数据集名称
iPinYouCriteoAvazuCriteo_Challenge
数据集格式
- 输入数据格式:
multi-field categorical - 输出数据格式:二进制
数据集特征工程
iPinYou:由@weinan zhang贡献,包含16个分类特征,特征空间约900k。Criteo:由@tianyao chen贡献,包含13个数值特征和26个分类特征,特征空间约1M。
数据集划分
iPinYou:训练集大小15M,测试集大小4M,正样本比例训练集为0.00075,测试集为0.00073。Criteo:训练集大小86M,测试集大小12M,正样本比例训练集为0.50,测试集为0.49。
数据集处理
iPinYou:未进行负样本下采样,保留大部分信息。Criteo:进行了负样本下采样,移除了出现少于20次的长期尾部数据。
数据集来源
Avazu:原始数据可从https://www.kaggle.com/c/avazu-ctr-prediction/data下载。Criteo Challenge:数据处理遵循https://github.com/guestwalk/kaggle-2014-criteo (master branch),直接转换特征为hdf格式。
数据集维护
- 该数据集将长期维护。
搜集汇总
数据集介绍

构建方式
该数据集集合了iPinYou、Criteo、Avazu和Criteo_Challenge四个广告与推荐系统领域的关键数据集,采用多字段分类格式输入,输出为二分类结果。数据集的构建过程中,特别注重特征工程的优化,如iPinYou数据集中移除了可能导致信息泄露的用户标签特征,并对部分特征进行了离散化处理。Criteo数据集则通过等宽分桶和长尾数据剔除等技术手段,进一步提升了数据的可用性和预测性能。
使用方法
数据集的使用方法简便高效。用户可通过Python直接导入数据集,并利用内置的批量生成器进行数据加载。数据集支持多进程处理,能够显著加速数据预处理和模型训练过程。用户还可以根据本地或NAS环境的不同,灵活配置数据路径。通过HDF5接口,用户可以轻松实现数据的随机打乱、正样本比例调整等操作,极大地方便了实验的开展和模型的调优。
背景与挑战
背景概述
iPinYou、Criteo、Avazu和Criteo_Challenge数据集是广告推荐系统领域的重要资源,广泛应用于点击率预测和用户行为分析等任务。这些数据集由APEX实验室的研究团队开发和维护,主要贡献者包括@xueyuan zhao、@tianyao chen、@weinan zhang等。iPinYou数据集包含16个分类特征,Criteo数据集则基于CriteoLab的1TB点击日志,包含13个数值特征和26个分类特征。这些数据集通过hdf5格式提供高效的数据访问接口,支持大规模数据处理和特征工程。它们在广告推荐系统的研究中具有重要影响力,为学术界和工业界提供了宝贵的实验数据。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,广告推荐系统的核心问题在于如何从海量且稀疏的用户行为数据中提取有效特征,以准确预测点击率。iPinYou和Criteo数据集中的特征稀疏性和长尾分布问题增加了模型训练的难度。其次,数据预处理过程中需解决特征泄露、唯一ID无用性以及数值特征离散化等技术难题。此外,数据集的高维特征空间(如iPinYou的900K特征和Criteo的1M特征)对计算资源和存储提出了更高要求。最后,如何在保证数据隐私的前提下,提供可公开访问的高质量数据集,也是构建过程中需要平衡的关键问题。
常用场景
经典使用场景
iPinYou、Criteo、Avazu和Criteo_Challenge数据集在广告推荐系统领域中被广泛应用,尤其是在点击率预测(CTR)和用户行为分析方面。这些数据集通过多字段分类格式的输入数据,帮助研究者构建和优化推荐算法模型,特别是在处理大规模稀疏数据时表现出色。经典的使用场景包括在线广告投放策略的优化、个性化推荐系统的开发以及广告效果评估。
解决学术问题
这些数据集解决了广告推荐系统中常见的学术研究问题,如高维稀疏数据的特征工程、点击率预测模型的性能优化以及用户行为模式的挖掘。通过提供结构化的多字段分类数据,研究者能够更高效地探索特征交互、模型泛化能力以及数据稀疏性对模型性能的影响。这些数据集的引入显著推动了推荐系统领域的研究进展,尤其是在深度学习和大规模数据处理方面。
实际应用
在实际应用中,iPinYou、Criteo、Avazu和Criteo_Challenge数据集被广泛用于广告平台的实时竞价系统、个性化推荐引擎以及广告效果分析工具的开发。例如,Criteo数据集被用于优化电商广告的投放策略,而iPinYou数据集则帮助广告主更好地理解用户点击行为。这些数据集的实际应用不仅提升了广告投放的精准度,还显著提高了广告主的投资回报率。
数据集最近研究
最新研究方向
在广告推荐系统领域,iPinYou、Criteo、Avazu和Criteo_Challenge数据集的最新研究方向主要集中在深度学习模型的优化与应用。近年来,随着深度学习技术的快速发展,研究者们开始探索如何利用这些数据集来训练更加复杂的神经网络模型,如深度兴趣网络(DIN)和深度兴趣进化网络(DIEN),以捕捉用户行为的动态变化和长期兴趣。此外,针对数据稀疏性和冷启动问题,研究者们也在探索基于图神经网络(GNN)的推荐方法,通过构建用户-物品交互图来提升推荐的准确性和多样性。这些研究不仅推动了广告推荐系统的技术进步,也为实际应用中的点击率预测和用户行为分析提供了有力支持。
以上内容由遇见数据集搜集并总结生成



