KuaiRec
收藏arXiv2022-08-18 更新2024-07-31 收录
下载链接:
https://kuairec.com
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自Kuaishou的在线环境,几乎所有1,411名用户都接触过全部3,327个项目,包含数百万用户-项目交互,是首个真实世界的完全观察数据集。
This dataset is sourced from the online environment of Kuaishou. Nearly all of the 1,411 users have interacted with all 3,327 items, contains millions of user-item interactions, and is the first real-world fully observed dataset.
创建时间:
2022-02-22
搜集汇总
数据集介绍

构建方式
KuaiRec 数据集的构建方式是通过收集 Kuaishou App 上的用户与视频之间的交互数据。首先,研究人员从 2020 年 7 月 5 日至 9 月 5 日的数据中,选取了 1411 名用户和 3327 个视频,并确保这些用户观看了所有视频并留下了反馈,从而构建了一个几乎完全观察到的用户-项目交互矩阵,即小矩阵。为了训练推荐系统,研究人员还收集了一个更大的数据集,即大矩阵,其中包含小矩阵中用户和项目的额外交互数据。此外,数据集还包含了丰富的用户和项目侧信息,如用户的个人特征、社交关系和项目的标签等。
特点
KuaiRec 数据集的特点在于其几乎完全观察到的用户-项目交互矩阵,其中每个用户都观看了每个视频并留下了反馈,从而避免了传统数据集中存在的稀疏性和观察偏差问题。此外,数据集还包含了丰富的用户和项目侧信息,如用户的个人特征、社交关系和项目的标签等,这些信息可以帮助研究人员更全面地研究推荐系统。最后,数据集的规模非常大,包含数百万个用户-项目交互,这使得离线评估与在线 A/B 测试一样有效。
使用方法
KuaiRec 数据集可以用于多种研究方向的评估,如无偏推荐、交互推荐和会话推荐系统。在评估推荐系统时,研究人员可以从小矩阵中采样部分用户-项目交互作为测试集,并在大矩阵上进行模型训练。此外,数据集还可以用于研究数据密度和曝光偏差对推荐系统评估的影响,以及估计缺失值(即矩阵补全)对评估的影响。
背景与挑战
背景概述
推荐系统是帮助用户从海量信息中找到感兴趣内容的强大工具。然而,如何准确评估推荐模型一直是推荐系统领域的一大挑战。传统的A/B测试虽然直接有效,但其耗时耗力且风险较高。因此,研究者们转向利用用户与物品的交互历史进行离线评估。然而,现有的用户-物品交互数据集往往是部分观察的,这使得评估结果难以说服人。为了解决这个问题,KuaiRec数据集应运而生,这是首个来自真实推荐日志的完全观察数据集,包含了数百万的密集交互和丰富的侧面信息。
当前挑战
KuaiRec数据集在推荐系统评估领域带来了新的挑战。首先,如何利用这个独特的完全观察数据集进行无偏推荐和交互推荐的研究是一个亟待解决的问题。其次,KuaiRec数据集的密度和曝光偏差对多轮对话推荐的评价结果有何影响,以及如何通过估算缺失交互来缓解这种影响,也是当前研究的热点问题。此外,构建完全观察数据集本身就是一个挑战,如何保证数据的代表性和可靠性,如何在保证数据质量的同时降低数据收集的成本,都是研究者们需要面对的问题。
常用场景
经典使用场景
在推荐系统领域,KuaiRec 数据集以其完整的用户-物品交互记录而著称。该数据集涵盖了几乎所有用户对所有物品的曝光和反馈,这使得它在评估推荐系统的性能时具有无可比拟的优势。通过对 KuaiRec 数据集的分析,研究人员可以发现数据密度和曝光偏差对推荐系统评估结果的影响,从而更准确地评估推荐系统的性能。
衍生相关工作
KuaiRec 数据集的提出推动了推荐系统领域的研究,衍生出许多相关的工作。例如,一些研究人员利用 KuaiRec 数据集研究如何构建更加可靠的用户模拟器,以便更好地评估推荐系统的性能。此外,KuaiRec 数据集还可以用于研究和开发其他相关技术,如用户行为分析、物品特征提取等,从而进一步提升推荐系统的性能和用户体验。
数据集最近研究
最新研究方向
KuaiRec数据集为推荐系统的研究提供了全新的视角,该数据集由快手公司提供,包含了几乎所有用户对所有视频的完整交互数据,填补了现有数据集在用户交互数据上的缺失,为推荐系统的评估提供了更为真实和全面的数据基础。该数据集的发布,为无偏推荐、交互推荐和会话推荐系统等多个研究方向提供了新的可能性和挑战。例如,通过分析数据密度和曝光偏差对推荐系统评估结果的影响,研究者可以更深入地理解推荐系统的实际表现,并针对性地进行模型优化。此外,KuaiRec数据集也为构建可信赖的用户模拟器提供了新的可能性,研究者可以探索如何利用部分观测到的用户-项目交互数据来模拟完整观测数据,从而提高推荐系统的评估准确性。
相关研究论文
- 1KuaiRec: A Fully-observed Dataset and Insights for Evaluating Recommender Systems · 2022年
以上内容由遇见数据集搜集并总结生成



