reczoo/iPinYou_x1
收藏Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/iPinYou_x1
下载链接
链接失效反馈官方服务:
资源简介:
iPinYou全球实时竞价算法竞赛由iPinYou于2013年4月1日至2013年12月31日组织。竞赛分为三个赛季,每个赛季向参赛者发布一个训练数据集,测试数据集由iPinYou保留。完整的测试数据集随机分为两部分:一部分是排行榜测试数据集,用于在排行榜上评分和排名参赛团队;另一部分保留用于最终的离线评估。参赛者的最后一次离线提交由保留的测试数据集评估,以获取团队的离线最终得分。该数据集包含所有三个赛季的训练数据集和排行榜测试数据集。保留的测试数据集由iPinYou保留。训练数据集包括一组经过处理的iPinYou DSP竞价、展示、点击和转化日志。
iPinYou全球实时竞价算法竞赛由iPinYou于2013年4月1日至2013年12月31日组织。竞赛分为三个赛季,每个赛季向参赛者发布一个训练数据集,测试数据集由iPinYou保留。完整的测试数据集随机分为两部分:一部分是排行榜测试数据集,用于在排行榜上评分和排名参赛团队;另一部分保留用于最终的离线评估。参赛者的最后一次离线提交由保留的测试数据集评估,以获取团队的离线最终得分。该数据集包含所有三个赛季的训练数据集和排行榜测试数据集。保留的测试数据集由iPinYou保留。训练数据集包括一组经过处理的iPinYou DSP竞价、展示、点击和转化日志。
提供机构:
reczoo
原始信息汇总
iPinYou_x1 数据集概述
数据集描述
- 时间范围:2013年4月1日至2013年12月31日
- 竞赛组织:由iPinYou组织,分为三个赛季
- 数据内容:
- 训练数据集:每个赛季发布给参赛者的训练数据集
- 测试数据集:iPinYou保留的测试数据集,分为两部分:
- 排行榜测试数据集:用于在排行榜上对参赛团队进行评分和排名
- 保留测试数据集:用于最终的线下评估
- 数据类型:包含三个赛季的训练数据集和排行榜测试数据集,保留测试数据集由iPinYou保留
- 数据内容:训练数据集包括经过处理的iPinYou DSP竞价、曝光、点击和转化日志
数据完整性验证
- md5sum校验: bash $ md5sum *.csv a94374868687794ff8c0c4d0b124a400 test.csv 9dd8979d265ab1ed7662ffd49fd73247 train.csv
搜集汇总
数据集介绍

构建方式
在计算广告学领域,实时竞价(RTB)数据的构建对模型评估至关重要。iPinYou_x1数据集源自iPinYou全球实时竞价算法竞赛,该竞赛于2013年4月1日至12月31日期间分为三个赛季进行。每个赛季向参赛者发布训练数据集,而测试数据集则由主办方保留。完整测试数据被随机划分为两部分:一部分作为排行榜测试数据用于评分和排名,另一部分则保留用于最终线下评估。该数据集整合了三个赛季的训练数据及排行榜测试数据,涵盖了经过处理的iPinYou DSP竞价、展示、点击和转化日志,确保了数据来源的权威性和时效性。
使用方法
在机器学习应用中,iPinYou_x1数据集的使用方法侧重于模型开发与评估。研究人员可通过下载链接获取CSV格式的数据文件,利用训练数据集进行模型训练,以学习广告点击率预测中的特征交互。测试数据集则用于评估模型性能,模拟竞赛环境下的排行榜评分。为确保数据完整性,建议使用提供的md5sum校验文件。该数据集已成功应用于如AutoGroup等论文中,支持自动特征分组技术的研究,为CTR预测领域提供了可靠的基准数据。
背景与挑战
背景概述
在计算广告学领域,实时竞价(RTB)技术作为程序化广告的核心机制,其点击率预测模型的精准度直接关乎广告投放的经济效益与用户体验。iPinYou_x1数据集源于2013年iPinYou举办的全球实时竞价算法竞赛,由iPinYou公司主导,历时三个赛季,涵盖了经过处理的竞价、展示、点击及转化日志。该数据集旨在推动点击率预测算法的研究,通过公开训练数据与部分测试数据,为学术界与工业界提供了评估模型性能的基准,对计算广告与推荐系统领域产生了深远影响,促进了如AutoGroup等高效特征交互建模方法的发展。
当前挑战
iPinYou_x1数据集所针对的点击率预测问题,面临高维稀疏特征交互建模的挑战,需从海量用户行为日志中捕捉隐式模式以提升预测准确性。在构建过程中,数据源自实际广告交易平台,涉及多源异构日志的整合与清洗,需处理噪声数据、正负样本不平衡以及用户隐私保护等问题,同时确保数据时序一致性以反映真实竞价环境,这些因素均增加了数据集构建的复杂度与可靠性要求。
常用场景
经典使用场景
在计算广告学领域,实时竞价(RTB)系统的点击率预测是核心挑战之一。iPinYou_x1数据集作为业界公开的基准数据,其经典使用场景在于训练和评估点击率预测模型。该数据集整合了iPinYou公司2013年三个季度的竞价、曝光、点击和转化日志,为研究者提供了丰富的用户行为序列和广告交互特征。通过模拟真实广告竞价环境,它支持模型在动态流量下进行性能验证,尤其在处理高维稀疏特征和时序依赖方面展现出独特价值,成为优化广告投放效率的关键工具。
解决学术问题
该数据集有效解决了在线广告研究中若干关键学术问题。其一,它助力探索高维稀疏特征下的表示学习,如何从海量用户行为中提取有效信号以提升预测精度。其二,针对实时竞价中的非平稳分布挑战,数据集提供了跨季节的时序数据,支持研究概念漂移适应和模型鲁棒性。此外,它促进了显式高阶特征交互建模的发展,如通过自动化特征分组技术优化计算效率,为CTR预测领域的算法创新提供了实证基础,推动了个性化推荐与广告匹配的理论进展。
实际应用
在实际应用层面,iPinYou_x1数据集被广泛用于增强数字广告平台的智能决策能力。广告技术公司依托该数据集训练预测模型,以实时估算用户点击概率,从而优化竞价策略和预算分配。例如,在程序化广告投放中,模型可基于历史日志动态调整出价,提升广告主的投资回报率。同时,数据集支持A/B测试框架的构建,帮助平台评估新算法在真实流量下的表现,降低试错成本。这些应用不仅提高了广告投放的精准度,也推动了整个行业向数据驱动范式转型。
数据集最近研究
最新研究方向
在实时竞价广告领域,iPinYou_x1数据集作为业界标杆,持续推动着点击率预测模型的前沿探索。当前研究聚焦于自动化特征交互建模,如AutoGroup框架通过自动分组机制捕捉高阶特征组合,以提升广告推荐效果。该方向与深度学习可解释性、计算广告效率优化等热点紧密相连,不仅深化了用户行为理解,也为工业级系统提供了可扩展的解决方案,对广告生态的精准营销与资源分配具有显著意义。
以上内容由遇见数据集搜集并总结生成



