RecFlow
收藏arXiv2024-10-28 更新2024-10-30 收录
下载链接:
https://github.com/RecFlow-ICLR/RecFlow
下载链接
链接失效反馈官方服务:
资源简介:
RecFlow是由中国科学技术大学和快手公司联合创建的工业级全流程推荐系统数据集,旨在弥合离线推荐系统基准与真实在线环境之间的差距。该数据集包含3800万次用户交互和19亿次阶段样本,涵盖了从曝光空间到未曝光项目的多阶段推荐流程。数据集的创建过程包括从42,000名用户中收集的在线请求日志,记录了每个推荐请求的详细信息。RecFlow的应用领域广泛,支持多任务推荐、用户行为建模、选择偏差估计等研究,旨在提升推荐系统的整体性能和效果。
RecFlow is an industrial-grade end-to-end recommendation system dataset jointly created by the University of Science and Technology of China and Kuaishou Technology, aiming to bridge the gap between offline recommendation system benchmarks and real-world online environments. This dataset contains 38 million user interactions and 1.9 billion stage-wise samples, covering the multi-stage recommendation pipeline from exposed item space to unexposed items. The dataset construction process includes online request logs collected from 42,000 users, which record detailed information of each recommendation request. RecFlow has a wide range of application scenarios, supporting research on multi-task recommendation, user behavior modeling, selection bias estimation and other topics, aiming to improve the overall performance and effectiveness of recommendation systems.
提供机构:
中国科学技术大学
创建时间:
2024-10-28
原始信息汇总
RecFlow: An Industrial Full Flow Recommendation Dataset
数据集概述
RecFlow是一个工业级全流程推荐系统数据集,包含来自快手多阶段推荐系统的样本,涵盖曝光空间和各阶段的未曝光项目。该数据集旨在为推荐系统研究社区提供一个真实工业环境下的全流程数据集,支持多种推荐任务的研究。
数据集下载
数据集可通过以下链接手动下载:
数据集动机
RecFlow数据集的提出是为了解决现有公开推荐系统数据集的局限性,支持研究包括多阶段交互、数据分布偏移、辅助排序任务、用户行为序列建模等挑战。
数据集用途
RecFlow数据集可应用于以下任务:
- 缓解训练和服务阶段之间的差异。
- 多阶段联合建模。
- 点击率预测和序列推荐任务。
- 多任务推荐研究。
- 通过隐式反馈学习。
- 重排序问题研究。
- 用户行为序列建模。
- 基于上下文的推荐。
- 构建更准确的推荐系统模拟器或用户模型。
- 更准确地估计选择偏差并设计更好的去偏算法。
数据集组织结构
RecFlow数据集包含以下文件夹:
- all_stage: 包含所有阶段的数据。
- realshow: 包含曝光空间的数据。
- seq_effective_50_dict: 包含用户有效观看行为序列长度为50的数据。
- request_id_dict: 以request_id为第一级键,阶段标签为第二级键,存储各阶段视频数据。
- ubm_seq_request_id_dict: 用于用户行为序列建模任务,结构与request_id_dict相同。
- id_cnt.pkl: 记录每个特征字段的唯一ID数量。
- retrieval_test.feather: 用于检索实验的测试数据集。
- coarse_rank_test.feather: 用于粗排序实验的测试数据集。
- rank_test.feather: 用于排序实验的测试数据集。
- realshow_video_info.feather: 包含曝光空间的视频信息。
- realshow_video_info_daily: 包含曝光空间累积的视频信息。
特征字段描述
| 字段名称 | 描述 | 类型 |
|---|---|---|
| request_id | 每个推荐请求的唯一ID。 | Integer |
| request_timestamp | 每个推荐请求的时间戳。 | Integer |
| user_id | 每个用户的唯一ID。 | Integer |
| device_id | 每个设备的唯一ID。 | Integer |
| age | 用户的年龄。 | Integer |
| gender | 用户的性别。 | Integer |
| province | 用户所在省份。 | Integer |
| video_id | 每个视频的唯一ID。 | Integer |
| author_id | 每个作者的唯一ID。 | Integer |
| category_level_one | 视频的第一级类别ID。 | Integer |
| category_level_two | 视频的第二级类别ID。 | Integer |
| upload_type | 视频的上传类型ID。 | Integer |
| upload_timestamp | 视频的上传时间戳。 | Integer |
| duration | 视频的时长(毫秒)。 | Integer |
| realshow | 二进制反馈信号,表示视频是否曝光给用户。 | Integer |
| rerank_pos | 二进制反馈信号,表示视频在重排序阶段是否排名前10。 | Integer |
| rerank_neg | 二进制反馈信号,表示视频在重排序阶段是否排名不在前10。 | Integer |
| rank_pos | 二进制反馈信号,表示视频在排序阶段是否排名前10。 | Integer |
| rank_neg | 二进制反馈信号,表示视频在排序阶段是否排名不在前10。 | Integer |
| coarse_neg | 二进制反馈信号,表示视频在粗排序阶段是否排名不在前500。 | Integer |
| prerank_neg | 二进制反馈信号,表示视频在预排序阶段是否排名不在前500。 | Integer |
| rank_index | 视频在排序阶段的排名位置。 | Integer |
| rerank_index | 视频在重排序阶段的排名位置。 | Integer |
| playing_time | 用户观看视频的时长。 | Integer |
| effective_view | 二进制反馈信号,表示用户观看视频至少30%。 | Integer |
| long_view | 二进制反馈信号,表示用户观看视频至少100%。 | Integer |
| like | 二进制反馈信号,表示用户点赞视频。 | Integer |
| follow | 二进制反馈信号,表示用户关注作者。 | Integer |
| forward | 二进制反馈信号,表示用户转发视频。 | Integer |
| comment | 二进制反馈信号,表示用户在视频评论区发表评论。 | Integer |
搜集汇总
数据集介绍

构建方式
RecFlow数据集的构建基于工业推荐系统的全流程,涵盖了从检索到边缘排序的六个阶段。该数据集不仅包括了曝光空间中的样本,还纳入了在每个阶段被过滤掉的未曝光项目。通过收集来自42,000名用户在37天内的930万次在线请求,RecFlow数据集包含了3800万次交互和19亿个阶段样本,确保了数据的真实性和全面性。
特点
RecFlow数据集的显著特点在于其全面性和多阶段性。它不仅包含了用户与项目的交互数据,还详细记录了每个推荐阶段的项目过滤情况,为研究推荐系统中的选择偏差、去偏算法、多阶段一致性和最优性、多任务推荐以及用户行为建模提供了丰富的数据支持。此外,数据集还包含了多种类型的用户反馈,如有效观看、长观看、点赞、关注、分享和评论,以及视频时长和播放时间等信息。
使用方法
RecFlow数据集可广泛应用于推荐系统的各个研究领域。研究者可以利用该数据集设计新的算法,特别是在处理未曝光项目和多阶段推荐系统中的交互方面。数据集支持对选择偏差的研究,帮助设计去偏算法,并优化多阶段推荐系统的一致性和最优性。此外,RecFlow数据集还可用于多任务推荐和用户行为序列建模,通过分析用户的历史行为和反馈,提升推荐系统的准确性和用户满意度。
背景与挑战
背景概述
推荐系统(RS)在现代网络和移动应用中扮演着至关重要的角色,其主要目标是从庞大的物品库中根据用户偏好提供个性化推荐。为了在效率和效果之间取得平衡,工业推荐系统通常采用多阶段管道。然而,现有的RS基准数据集主要集中在曝光空间,忽略了未曝光物品的更大空间,这导致算法在实际工业RS中面临处理未曝光物品的挑战。为了解决这一问题,RecFlow数据集应运而生,它是一个工业全流程推荐数据集,旨在弥合离线RS基准与实际在线环境之间的差距。RecFlow不仅包含曝光空间的样本,还包括在RS管道各阶段被过滤的未曝光物品样本。该数据集由42K用户在37天内产生的38M次交互和1.9B阶段样本组成,涵盖6个阶段,为设计新算法以提高推荐效果提供了丰富的数据支持。
当前挑战
RecFlow数据集面临的挑战主要集中在两个方面。首先,数据分布的差异问题,即训练数据分布与服务数据分布之间的不一致,特别是在预排序模型中,训练数据仅包含少量曝光物品,而服务时需要对大量物品进行评分,这导致模型在实际应用中的表现不佳。其次,多阶段推荐系统中各阶段之间的复杂交互被忽视,导致整体系统性能次优。此外,RecFlow数据集在构建过程中也面临存储压力和信息完整性的挑战,特别是在处理大量未曝光物品样本时。这些挑战为研究者提供了设计新算法和优化推荐系统的契机,尤其是在处理选择偏差、去偏算法、多阶段一致性和最优性、多任务推荐以及用户行为建模等方面。
常用场景
经典使用场景
RecFlow数据集在推荐系统研究中具有广泛的应用,特别是在多阶段推荐系统的算法设计和评估中。其经典使用场景包括但不限于:1) 研究如何缓解训练与服务环境之间的数据分布差异;2) 探索多阶段推荐系统中各阶段之间的相互作用;3) 设计新的算法以提高推荐效果,特别是在考虑阶段特定样本的情况下。
衍生相关工作
RecFlow数据集的发布催生了一系列相关研究工作,特别是在推荐系统的多阶段优化和去偏研究领域。相关经典工作包括:1) 基于RecFlow数据集的多阶段推荐算法研究,如FS-LTR等;2) 利用RecFlow数据集进行的选择偏差和去偏算法研究;3) 基于RecFlow数据集的用户行为建模和多任务推荐研究,这些工作进一步推动了推荐系统领域的技术进步和应用深化。
数据集最近研究
最新研究方向
在推荐系统领域,RecFlow数据集的最新研究方向主要集中在解决多阶段推荐系统中的数据分布偏移问题。具体而言,研究者们致力于通过引入未曝光的样本,特别是在推荐流程的各个阶段中筛选出的未曝光项目,来弥合离线推荐基准与实际在线环境之间的差距。这种研究不仅有助于提升推荐算法的实际性能,还能更好地理解和优化多阶段推荐系统中的各个环节,包括检索、预排序、排序和重排序等。此外,RecFlow数据集还支持对选择偏差、去偏算法、多阶段一致性和最优性、多任务推荐以及用户行为建模等前沿问题的研究。
相关研究论文
- 1RecFlow: An Industrial Full Flow Recommendation Dataset中国科学技术大学 · 2024年
以上内容由遇见数据集搜集并总结生成



