five

KuaiRand

收藏
arXiv2022-08-24 更新2024-06-21 收录
下载链接:
https://kuairand.com
下载链接
链接失效反馈
官方服务:
资源简介:
KuaiRand是由中国科学技术大学和快手科技联合开发的无偏序贯推荐数据集,包含数百万次随机曝光视频的干预交互。该数据集通过在快手视频分享移动应用中随机插入推荐视频,记录了12种用户反馈信号,如点击、喜欢和观看时间,并收集了用户和视频的丰富特征及用户行为历史。KuaiRand旨在解决推荐系统中的曝光偏差问题,支持无偏线下评估,适用于交互推荐、长序列行为建模和多任务学习等多个研究领域。

KuaiRand is an unbiased sequential recommendation dataset jointly developed by the University of Science and Technology of China and Kuaishou Technology, containing millions of interventional interactions from randomly exposed videos. This dataset records 12 types of user feedback signals such as clicks, likes, and watch durations by randomly inserting recommended videos into the Kuaishou video-sharing mobile application, and collects rich features of users and videos as well as user behavior histories. KuaiRand aims to address the exposure bias problem in recommendation systems, supports unbiased offline evaluation, and is applicable to multiple research fields including interactive recommendation, long-sequence behavior modeling, and multi-task learning.
提供机构:
中国科学技术大学
创建时间:
2022-08-18
搜集汇总
数据集介绍
main_image_url
构建方式
KuaiRand数据集的构建采用了干预推荐策略的方法,在快手应用中随机插入随机选择的视频,持续两周时间,以收集用户对这些随机曝光视频的真实反馈。数据集记录了12种用户反馈信号,如点击、点赞和观看时间。此外,数据集还收集了用户和物品的丰富特征以及用户的行为历史,以促进模型学习。
使用方法
KuaiRand数据集的使用方法取决于研究需求。数据集提供了三个版本:KuaiRand-27K、KuaiRand-1K和KuaiRand-Pure。KuaiRand-27K包含完整的27K用户和3200万视频数据,适合需要严格序列日志的研究,如离线评估、强化学习和长序列推荐。KuaiRand-1K包含1000个用户的日志和400万视频数据,适合计算资源有限的研究者。KuaiRand-Pure只包含候选池中的7582个视频的日志,适合不需要严格序列信息的研究,如去偏研究和多任务学习。
背景与挑战
背景概述
在推荐系统领域,由于数据收集过程中固有的曝光偏差,导致研究人员面临着日志数据偏差的挑战。为了解决这个问题,KuaiRand数据集的创建者们提出了一种创新的方法,即在推荐信息流中随机插入视频,并收集用户对这些随机曝光视频的反馈。KuaiRand数据集包含数百万条关于随机曝光视频的干预互动,这些数据是从视频分享移动应用程序Kuaishou中收集的。与现有数据集相比,KuaiRand记录了12种用户反馈信号(例如点击、喜欢和观看时间),这些信号是在两周内插入推荐信息流中的随机曝光视频上收集的。此外,为了促进模型学习,KuaiRand还收集了丰富的用户和项目特征以及用户的行为历史。通过发布这个数据集,研究人员首次能够在大规模推荐场景中进行无偏差的离线评估。KuaiRand的独特特性使其能够支持各种其他研究方向,例如交互式推荐、长序列行为建模和多任务学习。
当前挑战
尽管KuaiRand数据集在解决推荐系统领域的数据偏差问题方面取得了突破,但仍面临一些挑战。首先,由于数据集的规模庞大,研究人员在处理和存储数据时可能会遇到困难。其次,由于数据集包含丰富的用户和项目特征,研究人员需要开发新的模型和方法来有效地利用这些信息。最后,由于数据集的收集过程涉及到对推荐政策的干预,研究人员需要确保这种干预不会对用户造成负面影响。
常用场景
经典使用场景
在推荐系统中,曝光偏差是一个普遍存在的问题,它会导致推荐结果出现偏差,从而影响用户体验和平台价值。为了解决这一问题,研究人员通常需要收集用户对随机曝光物品的反馈,即缺失值数据。然而,现有的数据集要么规模太小,要么缺乏关键信息,如用户ID或用户/物品的特征。KuaiRand数据集通过在推荐信息流中随机插入视频,收集了数百万个干预互动,从而为研究无偏见的推荐场景提供了可能。
解决学术问题
KuaiRand数据集的发布,为大规模推荐场景的无偏评估提供了可能,从而促进了去偏研究的发展。此外,该数据集还可以支持各种其他研究方向,如交互式推荐、长期序列行为建模和多任务学习。KuaiRand数据集的发布,为推荐系统研究提供了宝贵的资源,推动了该领域的发展。
实际应用
在实际应用中,KuaiRand数据集可以用于评估和改进推荐算法,从而提高推荐结果的准确性和多样性。此外,该数据集还可以用于研究交互式推荐、长期序列行为建模和多任务学习等方向,为推荐系统的发展提供新的思路和方法。
数据集最近研究
最新研究方向
KuaiRand数据集通过在推荐流中随机插入视频,收集了数百万次的干预交互,从而提供了一个无偏见的序列推荐数据集。该数据集记录了12种用户反馈信号,包括点击、点赞和观看时间等,并收集了用户和物品的丰富特征以及用户的行为历史。这使得KuaiRand成为首个可以进行无偏见的离线评估的序列推荐数据集,为大规模推荐场景中的去偏研究提供了新的可能性。此外,KuaiRand还可以支持交互式推荐、长序列行为建模和多任务学习等研究方向。
相关研究论文
  • 1
    KuaiRand: An Unbiased Sequential Recommendation Dataset with Randomly Exposed Videos中国科学技术大学 · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作