RL4RS

Name: RL4RS
Creator: 网易公司伏羲人工智能实验室
Published: 2023-04-17 18:37:38
License: 暂无描述

arXiv2023-04-17 更新2024-06-21 收录

下载链接：

https://github.com/fuxiAIlab/RL4RS

下载链接

链接失效反馈

官方服务：

资源简介：

RL4RS是由网易公司伏羲人工智能实验室创建的实际数据集，专注于基于强化学习的推荐系统。该数据集包含两个实际数据集，数据理解工具，调整后的模拟环境，相关的先进强化学习基准，批量强化学习基准，以及反事实策略评估算法。RL4RS旨在填补基于强化学习的推荐系统领域由于资源限制而使用人工数据集和半模拟推荐系统数据集的空白。数据集不仅适用于基于强化学习的推荐系统研究，还预期对应用强化学习研究做出贡献。

RL4RS is a real-world dataset created by NetEase Fuxi AI Lab, focusing on reinforcement learning-based recommender systems. This dataset includes two real-world datasets, data understanding tools, adapted simulation environments, relevant state-of-the-art reinforcement learning baselines, batch reinforcement learning baselines, and counterfactual policy evaluation algorithms. RL4RS aims to fill the gap in the field of reinforcement learning-based recommender systems, where artificial datasets and semi-simulated recommender system datasets are widely used due to resource limitations. The dataset is not only applicable to research on reinforcement learning-based recommender systems, but also expected to make contributions to applied reinforcement learning research.

提供机构：

网易公司伏羲人工智能实验室

创建时间：

2021-10-18

搜集汇总

数据集介绍

构建方式

在强化学习推荐系统领域，RL4RS数据集的构建旨在弥合现实应用与学术研究之间的鸿沟。该数据集源自网易游戏平台的实际用户交互日志，通过严格的三阶段匿名化流程确保用户隐私，包括用户采样、数值编码和特征描述掩码。数据采集过程记录了推荐上下文、用户行为序列以及部署时的行为策略，形成了包含时间戳、会话ID、曝光物品、用户反馈、用户特征、物品特征和行为策略ID的原始日志。随后，这些数据被转化为适用于强化学习训练的状态-动作元组，并针对石板推荐和序列石板推荐两种场景进行了专门处理，以支持多步决策建模。

使用方法

使用RL4RS数据集时，研究者可依托其提供的系统化框架开展多维度实验。首先，可利用原始日志数据构建用户行为模拟环境，通过监督学习任务如石板级分类、物品级分类和排序来训练环境模型。随后，可在模拟环境中部署模型无关或批量强化学习算法，进行在线策略学习与评估。同时，数据集支持反事实策略评估方法，如重要性采样和双重稳健估计，以离线方式预测新策略性能。此外，分离的SL与RL数据便于批量强化学习研究，直接从未经策略优化的数据中学习策略，并评估外推误差。最终，通过测试集构建的环境模型可进行跨环境验证，确保策略的泛化能力。

背景与挑战

背景概述

随着电子商务的蓬勃发展，推荐系统作为提升用户体验与商业效益的核心技术，其研究范式正经历深刻变革。传统基于监督学习的推荐方法往往局限于即时收益的优化，难以应对序列推荐、板岩推荐等复杂场景中的多步决策挑战。在此背景下，网易伏羲人工智能实验室于2018年推出了RL4RS数据集，旨在为基于强化学习的推荐系统研究提供首个开源的真实世界数据资源。该数据集聚焦于强化学习与推荐系统的交叉领域，核心研究问题在于如何利用真实用户交互数据构建有效的序列决策模型，以优化长期累积收益。RL4RS的发布填补了该领域长期缺乏真实数据集的空白，推动了从模拟环境到实际应用的研究转型，对推荐算法与强化学习技术的融合发展产生了深远影响。

当前挑战

RL4RS数据集所针对的强化学习推荐系统领域，首要挑战在于如何准确建模用户与推荐代理之间的序列交互过程，以解决传统方法在长期收益优化与组合推荐空间探索上的不足。具体而言，领域问题涉及在庞大且动态的物品候选集中进行多步决策，同时需处理用户反馈的稀疏性与延迟奖励问题。在数据集构建过程中，研究团队面临多重挑战：一是真实用户数据的采集与匿名化处理需在保护隐私的前提下确保数据质量与代表性；二是将原始日志数据转化为符合马尔可夫决策过程格式的结构化数据，需设计合理的状态、动作与奖励表示方法；三是数据分布的不平衡与用户行为的复杂性，要求构建能够准确模拟用户反馈的环境模型，而现有监督学习指标与奖励预测性能之间存在显著不一致，凸显了环境仿真的难度。

常用场景

经典使用场景

在强化学习驱动的推荐系统研究中，RL4RS数据集被广泛用于模拟真实电商环境下的多步决策任务。该数据集特别适用于板岩推荐和序列板岩推荐场景，其中推荐代理需要在每个页面中从候选物品中选取多个项目，并考虑用户在整个会话中的长期满意度。研究者利用该数据集训练和评估各类强化学习算法，以优化推荐策略在复杂交互环境中的表现，从而推动推荐系统从静态预测向动态决策的演进。

解决学术问题

RL4RS数据集有效解决了强化学习推荐系统领域长期存在的现实鸿沟问题。传统研究多依赖人工或半模拟数据集，导致实验结果与真实应用场景脱节。该数据集通过提供来自实际工业环境的原始日志数据，支持环境模拟构建、离线策略学习和反事实策略评估等关键研究任务。其意义在于为学术界提供了首个开源的真实世界基准，促进了强化学习在推荐系统中的可复现性和可靠性研究，推动了该领域从理论验证向实际应用的转变。

实际应用

在实际工业场景中，RL4RS数据集可直接用于电商平台和在线游戏中的个性化推荐系统优化。例如，在网易游戏的物品推荐场景中，该数据集帮助训练出的强化学习策略能够显著提升用户会话中的总交易额和转化率。通过模拟真实用户与推荐代理的交互，企业能够在不影响线上服务的前提下，测试和部署更高效的推荐算法，从而在动态变化的市场环境中实现长期收益最大化，并增强用户体验。

数据集最近研究