iPinYou Dataset
收藏arXiv2015-05-22 更新2024-06-21 收录
下载链接:
http://data.computational-advertising.org
下载链接
链接失效反馈官方服务:
资源简介:
iPinYou数据集是由中国领先的广告技术公司iPinYou创建,用于2013年的全球RTB算法竞赛。该数据集包含约35GB的日志数据,涵盖了广告拍卖、竞价、展示、点击和最终转化等多个环节,反映了市场环境和用户从广告商视角的完整响应路径。数据集支持诸如竞价优化和点击率估计等重要研究问题的实验,是RTB展示广告领域首个公开可用的大规模真实世界数据集。该数据集的应用领域主要集中在RTB广告的竞价策略优化和性能提升,旨在通过数据分析和算法优化,提高广告投放的效率和效果。
The iPinYou Dataset was created by iPinYou, a leading advertising technology firm in China, for the 2013 Global RTB Algorithm Competition. This dataset contains approximately 35GB of log data covering multiple stages including ad auction, bidding, impression, click, and final conversion, which reflects the market environment and the complete user response path from the advertiser's perspective. It supports experiments on key research topics such as bidding optimization and click-through rate (CTR) estimation, and is the first publicly available large-scale real-world dataset in the field of RTB display advertising. The main application scenarios of this dataset focus on bidding strategy optimization and performance improvement for RTB advertising, aiming to enhance the efficiency and effectiveness of ad delivery through data analysis and algorithm optimization.
提供机构:
伦敦大学学院
创建时间:
2014-07-26
搜集汇总
数据集介绍
构建方式
在实时竞价广告领域,数据稀缺长期制约着学术研究进展。iPinYou数据集源自中国领先的需求方平台iPinYou于2013年举办的全球RTB算法竞赛,其构建过程体现了工业实践与学术需求的紧密结合。该数据集通过系统采集广告拍卖全链路日志,涵盖竞价请求、曝光、点击及转化等多维度记录,并以行式结构组织,每条记录包含拍卖特征、广告属性、竞价价格及用户反馈等关键信息。为确保数据可用性与隐私保护,敏感字段如用户标识、域名等经过哈希处理,货币单位则统一为人民币分乘以1000,以符合千次曝光成本定价模型。数据覆盖多个行业广告主,时间跨度跨越不同季节,从而形成了反映真实市场环境与用户行为多样性的完整数据生态。
使用方法
iPinYou数据集的使用方法遵循一套严谨的离线评估协议,旨在模拟真实RTB环境中的竞价决策过程。研究人员首先利用训练数据构建点击率估计模型与市场竞价分布模型,进而优化竞价函数。在评估阶段,通过回放测试日志的方式,按照时间顺序处理竞价请求,并根据预设预算动态调整出价策略。竞价结果与日志中的曝光、点击及转化记录进行比对,以计算关键绩效指标如点击数、转化数及其加权组合。该协议支持对多种竞价策略的对比分析,例如基于固定出价、随机出价或预测点击率的线性出价等方法。通过调整预算比例,研究者能够深入探索不同资源约束下策略的适应性,从而推动RTB算法在预算分配与效果优化方面的理论进展与工程实践。
背景与挑战
背景概述
实时竞价(RTB)作为展示广告的新兴范式,通过为每次曝光实时计算出价,将竞价策略的核心从上下文转向用户兴趣。在计算广告领域,研究人员长期面临公开基准数据集匮乏的困境,这阻碍了不同算法与系统的比较。2014年,伦敦大学学院与iPinYou公司合作发布了iPinYou数据集,该数据集源自2013年全球RTB算法竞赛,包含广告拍卖、出价、曝光、点击及最终转化的完整日志,首次为RTB展示广告提供了大规模真实世界数据。该数据集的发布不仅推动了出价优化与点击率估计等关键问题的研究,还促进了整个RTB生态系统的可重复研究,对计算广告学的发展产生了深远影响。
当前挑战
iPinYou数据集致力于解决实时竞价中的出价优化与点击率估计问题,其核心挑战在于如何在严格的时间约束(如100毫秒内)与预算限制下,最大化广告活动的关键绩效指标。由于用户反馈数据极度稀疏(如点击率常低于0.1%),且市场价格动态波动,构建精准的预测模型尤为困难。在数据集构建过程中,挑战主要来自数据敏感性与隐私保护:原始日志涉及用户行为与商业机密,需通过哈希处理与匿名化来平衡数据可用性与隐私安全;同时,不同广告主的用户响应模式差异显著,需独立建模,而跨广告主数据共享又受商业限制,这增加了模型泛化的难度。
常用场景
经典使用场景
在实时竞价广告领域,iPinYou数据集被广泛用于构建和评估需求方平台的出价优化算法。该数据集包含了广告拍卖日志、出价记录、展示、点击及转化数据,为研究者提供了完整的用户行为轨迹。通过模拟真实市场环境,研究者能够训练模型以预测点击率,并基于预算约束动态调整出价策略,从而最大化广告活动的关键绩效指标。这一经典应用场景不仅推动了算法创新,也为理解实时竞价生态系统的复杂性提供了实证基础。
解决学术问题
iPinYou数据集解决了计算广告学中缺乏公开基准数据的难题,使得研究者能够系统性地探索出价优化和点击率估计等核心问题。通过提供大规模真实世界日志,该数据集支持对市场定价分布、用户反馈模式及预算分配策略的建模,促进了基于数据驱动的决策理论发展。其意义在于打破了工业界数据壁垒,为学术界提供了可重复研究的实验平台,加速了实时竞价算法的标准化与比较分析。
实际应用
在实际广告投放中,iPinYou数据集被用于训练和测试需求方平台的智能出价系统,帮助广告主在有限预算下提升点击和转化效率。基于数据集的模型可实时分析用户特征、上下文信息及市场竞争态势,自动生成个性化出价,从而优化广告投放效果。这一应用不仅降低了人工策略制定的成本,还增强了广告投放的精准性与适应性,推动了程序化广告技术在电商、金融、快消等行业的广泛部署。
数据集最近研究
最新研究方向
在实时竞价广告领域,iPinYou数据集作为首个公开的大规模真实世界基准数据,持续推动着前沿算法研究的发展。当前研究焦点已从基础的点击率预估和出价优化,扩展到更复杂的动态预算控制与市场环境建模。随着程序化广告生态的演进,研究者们正利用该数据集探索基于深度学习的多任务学习框架,以同时优化点击、转化及广告主定制化关键绩效指标。此外,结合强化学习的自适应出价策略成为热点,旨在应对实时竞价中预算约束与流量波动的动态平衡挑战。这些进展不仅深化了对竞价机制的理解,也为提升广告投放效率提供了可复现的实证基础,对计算广告学的学术研究与工业应用均产生了深远影响。
相关研究论文
- 1Real-Time Bidding Benchmarking with iPinYou Dataset伦敦大学学院 · 2015年
以上内容由遇见数据集搜集并总结生成



