recsys-slates
收藏arXiv2021-11-05 更新2024-06-21 收录
下载链接:
https://github.com/finn-no/recsys-slates
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为recsys-slates,由奥斯陆大学和FINN.no创建,记录了用户与在线市场之间的序列交互。数据集包含3740万条记录,涵盖了用户在30天内与市场的互动,包括推荐和搜索结果。数据集详细记录了每次交互中展示的商品列表(称为slates),用户是否点击以及点击的商品。此数据集旨在通过实际展示的商品列表,帮助构建更真实的用户偏好模型,并促进使用重要性采样等方法进行更稳健的离线评估。
This dataset, named recsys-slates, was created by the University of Oslo and FINN.no, and documents sequential user interactions with an online marketplace. It contains 37.4 million records covering user-market interactions over a 30-day period, including both recommendation and search results. The dataset meticulously records the item lists (termed slates) displayed during each interaction, as well as whether the user clicked any item and the specific clicked item. This dataset is designed to help build more realistic user preference models using the actual displayed item lists, and to facilitate more robust offline evaluation via methods such as importance sampling.
提供机构:
奥斯陆大学和FINN.no
创建时间:
2021-11-05
搜集汇总
数据集介绍

构建方式
在推荐系统研究领域,数据集的构建方式直接影响模型的训练与评估效果。recsys-slates数据集基于挪威领先的在线市场FINN.no,通过记录用户在30天内的交互行为构建而成。该数据集捕获了用户与平台之间的顺序交互,包括每次交互中呈现的推荐列表(称为slate)和搜索结果列表,并详细记录了用户是否点击以及点击的具体项目。为确保数据的实用性与隐私安全,构建过程中对无点击交互进行了均匀下采样,仅保留原始数量的10%,同时移除了交互次数少于10次的用户记录,并将每个用户的交互上限设定为20次。此外,数据集中每个slate的最大项目数限制为25项,这一处理仅影响约5%的交互,从而在保持数据代表性的同时优化了计算效率。
特点
recsys-slates数据集在推荐系统研究中展现出独特的特点,其核心在于完整记录了用户每次交互中暴露的所有项目列表,即slate信息。这一特性使得研究者能够超越传统的均匀候选采样假设,更准确地建模用户在有限暴露项目下的偏好行为。数据集包含3750万次交互,涉及230万独立用户和130万独特项目,其中约70%的交互源于搜索查询,30%来自推荐系统,无点击交互占比24.4%。每个项目均附带基于类别和地理位置的文本属性,共涵盖290个独特分组,为多维度分析提供了丰富上下文。数据集的顺序性和暴露信息的完整性,使其特别适用于强化学习和多臂赌博机等前沿方法的研究,有助于缓解推荐系统中的反馈循环偏差。
使用方法
为促进推荐系统研究的可重复性与模型评估,recsys-slates数据集提供了明确的使用方法。数据集已预先划分为训练集、验证集和测试集,其中90%用户的交互数据用于训练,剩余10%的用户平均分配至验证集和测试集。为确保用户冷启动场景的合理性,每个用户的前五次交互均纳入训练集,以便模型能够基于有限交互学习用户特定参数。研究者可通过公开的代码仓库获取基于PyTorch实现的数据加载器,快速集成数据集进行实验。该数据集适用于离线评估场景,尤其支持基于重要性采样的策略评估方法,使研究者能够在不依赖实时交互的情况下,测试推荐算法在暴露信息下的性能。数据集的匿名化处理和结构化格式,为开发更稳健的用户偏好模型提供了坚实基础。
背景与挑战
背景概述
在个性化推荐系统领域,传统数据集往往仅记录用户点击行为,而忽略了曝光物品列表(即slate)的完整信息,这导致模型训练存在偏差。为应对这一局限,奥斯陆大学与挪威领先在线市场FINN.no的研究团队于2021年联合发布了recsys-slates数据集。该数据集创新性地记录了用户与平台间连续的交互序列,涵盖每次推荐或搜索结果中展示的全部物品及用户的点击反馈,包括无点击行为。其核心研究问题在于如何利用完整的曝光信息构建更精准的用户偏好模型,以克服传统均匀候选采样假设的缺陷。该数据集的推出为强化学习与多臂老虎机等前沿方法在推荐系统中的应用提供了真实世界基础,显著推动了离线评估与反事实推理研究的发展。
当前挑战
recsys-slates数据集致力于解决推荐系统中动态列表推荐问题的挑战,即如何在用户连续交互中优化物品列表的排序与选择,以最大化长期用户满意度。传统方法因缺乏曝光数据,难以区分用户未点击物品是由于缺乏兴趣还是未被展示,导致模型陷入反馈循环偏差。在构建过程中,研究团队面临多重挑战:首先,需在保护用户隐私的前提下处理大规模敏感交互数据,这要求对原始数据进行匿名化与采样处理,例如限制交互次数与物品数量;其次,数据中高比例的无点击信号(约76.3%)需通过降采样平衡,以避免模型过拟合负样本;此外,物品属性的异构性与地理信息的整合亦增加了数据标注与分组的复杂性。这些挑战使得数据集的构建必须在信息丰富性与计算可行性间取得微妙平衡。
常用场景
经典使用场景
在推荐系统领域,recsys-slates数据集为研究序列化交互行为提供了关键支持。该数据集记录了用户与在线市场平台之间的动态交互过程,包括每次呈现的推荐列表或搜索结果列表(即slates),以及用户的点击或未点击反馈。这种结构使得研究者能够模拟真实场景下的用户决策流程,特别适用于评估和优化基于列表的推荐算法。通过捕捉完整的曝光信息,该数据集为构建更精准的用户偏好模型奠定了基础,推动了推荐系统从静态评估向动态交互分析的转变。
衍生相关工作
基于recsys-slates数据集,多项经典研究工作得以推进。例如,Eide等人利用该数据集开发了基于门控循环单元和汤普森采样的动态列表推荐模型,探索了序列决策中的探索-利用权衡。同时,该数据集促进了重要性采样等离线评估方法在推荐系统中的应用,为减少曝光偏差提供了新思路。此外,相关研究还扩展至列表分解的强化学习框架,如SLateQ方法,将列表推荐问题转化为可处理的子问题,推动了推荐系统与强化学习交叉领域的发展。
数据集最近研究
最新研究方向
在个性化推荐系统领域,recsys-slates数据集的推出为研究提供了前所未有的曝光信息记录,其核心价值在于捕捉了用户与推荐列表(slates)的完整交互序列。该数据集激发了推荐算法研究从传统点击反馈向更贴近真实场景的曝光感知模型转变,推动了基于强化学习和多臂老虎机框架的序列推荐方法发展。当前前沿研究聚焦于利用该数据集解决候选采样偏差问题,通过重要性采样等技术构建更稳健的离线评估指标,同时探索如何整合搜索与推荐场景下的用户行为模式,以打破反馈循环的固有偏见,为构建动态、可解释的推荐系统提供实证基础。
相关研究论文
- 1FINN.no Slates Dataset: A new Sequential Dataset Logging Interactions, allViewed Items and Click Responses/No-Click for Recommender Systems Research奥斯陆大学和FINN.no · 2021年
以上内容由遇见数据集搜集并总结生成



