Open Bandit Dataset
收藏arXiv2021-10-26 更新2024-06-21 收录
下载链接:
https://research.zozo.com/data.html
下载链接
链接失效反馈官方服务:
资源简介:
Open Bandit Dataset是由康奈尔大学和ZOZO研究团队共同创建的公开数据集,专门用于支持现实且可复现的策略评估研究。该数据集包含在大型时尚电子商务平台ZOZOTOWN上收集的多个日志数据集,这些数据集是通过运行不同策略收集的。这使得首次能够实验性地比较不同的策略评估估计器。数据集的应用领域包括个性化推荐系统、在线广告和电子商务,旨在通过策略评估改进这些系统的性能。
Open Bandit Dataset is a public dataset jointly created by the research teams from Cornell University and ZOZO, specifically designed to support realistic and reproducible policy evaluation research. It contains multiple logged datasets collected on the large fashion e-commerce platform ZOZOTOWN through the deployment of various policies. This enables, for the first time, the experimental comparison of different policy evaluation estimators. Its application domains include personalized recommendation systems, online advertising and e-commerce, with the goal of improving the performance of such systems via policy evaluation.
提供机构:
康奈尔大学
创建时间:
2020-08-17
搜集汇总
数据集介绍

构建方式
在离线策略评估领域,真实且可复现的基准数据集长期匮乏,制约着该领域研究的实证进展。Open Bandit Dataset的构建旨在填补这一空白,其数据来源于日本大型时尚电商平台ZOZOTOWN的实际生产环境。该数据集通过一项为期七天的A/B测试实验收集而成,实验中平台随机采用两种不同的策略——均匀随机策略和伯努利汤普森采样策略——向用户推荐时尚商品。每次用户访问时,系统会根据选定策略从候选商品池中选择并展示三个商品,并记录用户的上下文特征、被推荐的商品、策略选择该商品的概率以及用户是否点击的反馈。这种在真实商业场景下、由多种已知策略并行生成日志数据的构建方式,确保了数据的现实性和丰富性,为评估不同离线策略评估方法提供了前所未有的实验基础。
使用方法
为充分发挥该数据集的效用,研究团队同步开发了Open Bandit Pipeline这一开源Python软件库,它为标准化的离线策略评估实验提供了完整流程。使用方法主要分为三个步骤:首先,利用数据集模块加载并预处理原始日志数据,获取上下文、动作、奖励及行为策略概率等关键信息。其次,通过策略模块复现或定义待评估的策略,并计算其在测试数据上的动作选择概率分布。最后,在离线策略评估模块中,调用诸如逆概率加权、直接方法、双重稳健等一系列估计器,利用行为策略的日志数据来估算评估策略的预期性能。该流程不仅支持对现有估计器进行基准测试,其模块化设计也便于研究人员集成新的估计算法,并在统一、可复现的实验框架下进行性能对比。
背景与挑战
背景概述
Open Bandit Dataset由ZOZO Research、康奈尔大学及耶鲁大学的研究团队于2021年联合发布,旨在解决离线策略评估领域缺乏真实世界公开基准数据集的困境。该数据集采集自日本大型时尚电商平台ZOZOTOWN,通过运行伯努利汤普森采样与均匀随机两种策略,记录了海量用户交互日志,包含上下文特征、动作选择概率及奖励信号。其核心研究问题聚焦于如何利用历史日志数据准确评估新策略的潜在性能,从而避免高成本的在线A/B测试。这一数据集的问世首次实现了离线策略评估在真实场景下的可复现比较,为推荐系统、医疗决策等领域的策略优化研究提供了关键基础设施。
当前挑战
Open Bandit Dataset面临的挑战主要体现在两方面:其一,在领域问题层面,离线策略评估需克服日志数据因行为策略偏好导致的选择偏差与部分观测难题,传统方法如直接法易受模型误设影响,而逆概率加权则受高方差困扰;其二,在构建过程中,研究团队需确保多策略日志的同步采集与精确的概率记录,同时处理用户隐私保护与数据脱敏,并设计标准化流程以实现策略代码的公开复现。此外,数据集的有限策略数量与特定电商场景可能限制其泛化能力,未来需扩展至更多元领域以规避过拟合风险。
常用场景
经典使用场景
在交互式推荐系统的研究领域,Open Bandit Dataset 为离策略评估提供了前所未有的真实基准。该数据集源自日本大型时尚电商平台 ZOZOTOWN,记录了通过伯努利汤普森采样和均匀随机两种策略收集的用户交互日志。其独特之处在于同时包含由不同行为策略生成的多组日志数据,使得研究者能够首次在真实场景下系统比较各类离策略评估估计器的准确性。这一特性彻底改变了以往依赖合成数据或单一策略日志的局限,为评估推荐算法在反事实环境下的性能提供了坚实的数据基础。
解决学术问题
该数据集有效解决了离策略评估领域长期存在的实验可复现性与现实性难题。传统研究往往基于理想化的合成环境或未公开的专有数据,导致评估结果缺乏普适性与可比性。Open Bandit Dataset 通过提供包含真实用户上下文特征、物品属性和精确策略选择概率的完整日志,使研究者能够量化评估不同估计器在存在选择偏差和数据稀疏性时的统计特性。其配套的 Open Bandit Pipeline 软件进一步标准化了实验流程,为探究重要性加权方差控制、模型误设鲁棒性等核心理论问题提供了统一的实证平台。
实际应用
在工业级推荐系统的迭代优化中,该数据集为安全高效的策略评估提供了关键基础设施。企业可利用其构建离线评估框架,在部署新推荐算法前精准预测其点击率提升效果,显著降低在线 A/B 测试的成本与风险。例如,电商平台能够基于历史交互日志,评估融合深度学习模型的混合推荐策略相对于传统协同过滤方法的潜在收益。数据集包含的用户人口统计特征与物品多维度属性,更使得个性化推荐系统的跨场景迁移评估成为可能,为金融、医疗等高风险领域的决策系统优化提供了可借鉴的范式。
数据集最近研究
最新研究方向
在离线策略评估领域,Open Bandit Dataset的推出为真实场景下的算法验证提供了关键基准。该数据集源自日本大型时尚电商平台ZOZOTOWN,通过同时运行随机策略与伯努利汤普森采样策略,生成了多组日志数据,首次实现了对离线策略评估估计量的实证比较。前沿研究聚焦于利用该数据集探索高精度估计器的优化路径,特别是针对DRos等先进方法在超参数自动调优与样本量适应性方面的改进。相关热点包括结合深度学习模型提升奖励预测准确性,以及开发面向板岩推荐与连续动作空间的扩展评估框架。这些进展不仅推动了强化学习在电商推荐、医疗决策等领域的可靠应用,也为学术界建立标准化、可复现的实验范式奠定了基石。
相关研究论文
- 1Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation康奈尔大学 · 2021年
以上内容由遇见数据集搜集并总结生成



