KuaiSAR
收藏arXiv2025-09-30 收录
下载链接:
https://zenodo.org/records/8181109
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为KuaiSAR,是一个真实世界的大规模公开数据集,它包含了来自快手这一领先短视频应用上的搜索和推荐行为数据。该数据集构建了一个统一的查询和物品对的序列。平均用户序列长度约为1000,适用于推荐和搜索排名任务。
The dataset named KuaiSAR is a real-world large-scale public dataset, which contains search and recommendation behavior data from Kuaishou, a leading short-video application. This dataset constructs a unified sequence of query-item pairs, with an average user sequence length of approximately 1000, and is applicable to recommendation and search ranking tasks.
提供机构:
Kuaishou
搜集汇总
数据集介绍

构建方式
KuaiSAR数据集源自中国领先的短视频平台快手,覆盖超过3.5亿日活跃用户。构建过程首先随机采样了约25,000名在2023年5月22日至6月10日期间同时使用搜索与推荐服务的用户,并完整记录了其真实行为序列。数据采集不仅囊括正向反馈(如点赞、关注),更包含负向交互(如推荐视频被跳过、搜索结果未被点击),同时标注了用户是否在观看视频时发起搜索以及查询与当前视频的相关性。此外,针对搜索行为,详细区分了主动键入查询、点击推荐查询等不同入口来源。所有用户与视频的标识符及文本信息均经过哈希匿名化处理,并过滤敏感词汇,在保障隐私的前提下保留了丰富的侧边信息,如用户活跃度、视频类别标签等。
使用方法
KuaiSAR为搜索与推荐联合建模的研究提供了多维度的使用路径。研究者可直接利用其统一的用户行为序列,探索端到端的联合训练模型,或基于服务间的迁移信息,例如利用搜索数据增强推荐系统的用户兴趣理解,或借助推荐数据缓解搜索中的冷启动问题。数据集中关于搜索入口来源的标注(如点击推荐查询)特别适用于意图推荐任务。此外,由于涵盖了点赞、播放时长等多种反馈类型,KuaiSAR支持多任务学习框架的设计,以及基于多行为序列的推荐系统建模。数据集以开源形式发布于指定网站和Zenodo平台,便于学术界直接下载并应用于各类信息检索与推荐算法的验证与创新。
背景与挑战
背景概述
搜索与推荐服务的深度融合已成为现代在线平台提升用户体验的关键驱动力,尤其在短视频、电子商务等领域,用户行为往往在两者间频繁切换。然而,学术界在这一联合建模方向的研究长期受限于缺乏真实、大规模的用户行为数据集,导致理论与工业实践之间存在显著鸿沟。为弥合这一差距,中国人民大学与快手科技有限公司的研究团队于2023年共同发布了KuaiSAR数据集,该数据集源自拥有超过3.5亿日活跃用户的快手短视频应用,收集了2023年5月至6月间约2.5万名用户在搜索与推荐双场景下的真实交互行为,涵盖逾1900万条行为记录。KuaiSAR的核心研究问题聚焦于如何利用统一的用户行为序列实现搜索与推荐的协同优化,其独特性在于首次公开了用户在两个服务间的自然切换轨迹、搜索行为的来源(如主动输入或点击推荐查询)以及丰富的多类型反馈标签。该数据集不仅为联合建模、意图推荐、多任务学习等前沿方向提供了坚实的实验基础,更因其真实性与全面性,有望显著推动学术界对一体化信息服务的理解与创新。
当前挑战
KuaiSAR所面临的挑战首先体现在领域问题的复杂性上:搜索与推荐虽目标相近,但用户意图的显式与隐式差异、行为序列的异构性以及服务间动态切换的建模,使得联合优化成为一个极具挑战性的课题。现有方法多依赖半合成数据或私有数据集,难以复现真实场景中用户兴趣的瞬变与交叉影响。其次,在数据集构建过程中,团队需克服多重技术难题:如何精准标注用户在推荐流中触发搜索的意图(如通过点击放大镜进入搜索),并区分其与主动搜索行为的差异;如何确保用户隐私安全,通过对视频ID、查询词等敏感信息进行哈希加密与敏感词过滤,同时保留数据的完整性与可用性;此外,还需处理大规模日志中用户行为稀疏性、负反馈(如跳过视频)的隐含语义,以及社交网络信息的整合。这些挑战共同考验着数据集在真实性、隐私性与科研适用性之间的平衡,也为后续研究提出了更高的方法论要求。
常用场景
经典使用场景
在信息检索与推荐系统交叉融合的研究浪潮中,KuaiSAR作为首个大规模真实世界搜索与推荐一体化数据集,其经典使用场景聚焦于联合建模用户在这两种服务中的行为轨迹。研究者可借助该数据集,探索用户如何在推荐界面中触发搜索行为,或从搜索结果返回推荐浏览的完整链路,从而构建统一的用户兴趣表征模型,实现搜索与推荐服务的协同优化。
解决学术问题
KuaiSAR的发布有效弥合了学术界与工业界在搜索与推荐联合优化研究中的鸿沟。此前,该领域研究多依赖半合成数据集或私有工业数据,缺乏真实、开放且包含用户跨服务转换行为的基准。该数据集解决了用户行为数据割裂的难题,为多任务学习、序列多行为建模等方向提供了坚实基础,推动了从单一服务优化向全局用户体验提升的研究范式转变。
实际应用
在实际应用中,KuaiSAR所蕴含的用户跨服务行为模式可直接赋能短视频平台、电商平台等场景的智能决策。例如,平台可利用该数据集训练模型,在推荐流中精准嵌入查询推荐(意图推荐),激发用户主动搜索;或依据搜索历史优化推荐排序,提升内容发现效率。其丰富的负反馈标签亦为广告投放、冷启动商品曝光等业务提供了关键优化依据。
数据集最近研究
最新研究方向
KuaiSAR作为首个大规模真实世界搜索与推荐联合行为数据集,为弥合学术界与工业界在搜索与推荐一体化建模研究上的鸿沟提供了关键支撑。当前前沿研究方向聚焦于利用该数据集中记录的用户在推荐与搜索服务间的真实切换行为,探索联合建模的统一框架,例如通过共享用户表征或设计联合损失函数来优化双场景下的信息分发效率。同时,借助其丰富的用户反馈标签(如点赞、关注、搜索触发源等),研究热点延伸至意图推荐——即推荐系统如何主动激发用户搜索需求,以及多任务学习与序列多行为建模,旨在从异构行为序列中挖掘用户动态兴趣演化。该数据集的出现,不仅推动了搜索增强推荐与推荐辅助搜索的交叉应用,更在快手等拥有超3.5亿日活用户的平台上验证了其现实意义,为理解复杂用户行为模式提供了前所未有的实证基础。
相关研究论文
- 1KuaiSAR: A Unified Search And Recommendation Dataset高瓴人工智能学院 中国人民大学 北京, 中国 · 2023年
以上内容由遇见数据集搜集并总结生成



