five

KuaiSAR

收藏
arXiv2023-08-14 更新2024-06-21 收录
下载链接:
https://ethan00si.github.io/KuaiSAR/
下载链接
链接失效反馈
官方服务:
资源简介:
KuaiSAR是由高瓴人工智能学院和快手科技联合创建的大型真实世界数据集,专注于整合搜索与推荐行为。该数据集包含25,877名用户在快手平台上的真实交互数据,涵盖搜索和推荐服务的详细行为记录。数据集的创建旨在促进学术界对搜索与推荐服务整合的研究,支持多任务学习、意图推荐等多种研究方向。通过记录用户在搜索和推荐服务间的转换行为,KuaiSAR为研究提供了丰富的数据资源,有助于理解和优化用户在统一搜索与推荐环境中的行为模式。

KuaiSAR is a large-scale real-world dataset jointly created by the Gaoling School of Artificial Intelligence and Kuaishou Technology, focusing on integrating search and recommendation behaviors. This dataset contains real interaction data from 25,877 users on the Kuaishou platform, covering detailed behavioral records of both search and recommendation services. The dataset is developed to promote academic research on the integration of search and recommendation services, supporting multiple research directions such as multi-task learning and intent recommendation. By recording the transition behaviors of users between search and recommendation services, KuaiSAR provides abundant data resources for research, contributing to the understanding and optimization of user behavioral patterns in a unified search and recommendation environment.
提供机构:
高瓴人工智能学院 中国人民大学 北京, 中国
创建时间:
2023-06-13
搜集汇总
数据集介绍
main_image_url
构建方式
KuaiSAR数据集的构建,首先通过随机抽样了约25,000名在2023年5月22日至6月10日期间同时访问了快手应用中的搜索和推荐服务的用户。用户交互行为不仅包括正反馈,也包括负反馈。此外,对于用户推荐行为,记录了用户在推荐系统中观看视频时是否点击放大镜进行搜索,以及这些查询是否与当前视频相关。对于用户搜索行为,记录了他们进入搜索引擎的来源,例如点击推荐的相关查询、手动输入查询和点击热门搜索话题。这些标签可以增强我们对用户在S&R服务中的行为的理解。
使用方法
KuaiSAR数据集的使用方法包括以下几个方面:首先,它可以用于联合建模S&R,通过利用搜索数据来增强推荐系统,或者利用推荐数据来增强搜索引擎。其次,它可以用于研究意图推荐,通过分析用户如何发起搜索,例如通过点击推荐术语或点击相关搜索。此外,KuaiSAR还可以用于多任务学习,因为它提供了多种用户行为标签,可以用于研究用户兴趣的转移。最后,它可以用于序列多行为建模,因为它提供了用户在搜索和推荐服务中的多种行为类型,可以用于研究用户行为模式。
背景与挑战
背景概述
KuaiSAR数据集的创建旨在弥合学术界和产业界在搜索与推荐服务(S&R)研究之间的差距。随着在线服务,如电子商务和视频平台,对S&R服务的整合需求的增长,学术界缺乏用于研究的公开数据集。KuaiSAR数据集由中国人民大学高灵人工智能学院和快手科技有限公司的研究人员共同创建,收集自快手应用,这是一个在中国拥有超过3.5亿日活跃用户的领先短视频应用。该数据集的核心研究问题是探索S&R服务的整合建模,并利用搜索数据来增强推荐系统(反之亦然)。KuaiSAR数据集的发布对相关领域的研究产生了深远的影响,为学术界提供了进行联合建模和利用用户行为数据优化S&R服务的机会。
当前挑战
KuaiSAR数据集面临的挑战主要涉及两个方面:一是解决领域问题的挑战,即如何在S&R服务中实现有效的联合建模,并利用搜索数据来增强推荐系统,反之亦然;二是构建数据集过程中遇到的挑战,包括确保数据集的真实性、完整性和隐私保护。为了解决这些挑战,研究人员采用了精细的用户行为记录,并提供了丰富的用户和项目侧信息,同时确保了数据集的匿名化处理。KuaiSAR数据集的发布为学术界和产业界提供了宝贵的研究资源,有助于推动S&R服务的整合研究和应用创新。
常用场景
经典使用场景
KuaiSAR数据集,作为首个大规模、真实世界的数据集,收集了快手应用中用户在搜索和推荐服务中的行为。该数据集记录了用户在推荐服务和搜索服务中的互动,以及用户在这两种服务之间的转换。这使得KuaiSAR成为研究搜索和推荐服务联合建模的理想选择。此外,由于数据集中包含用户与视频互动的各种反馈标签,KuaiSAR还支持包括意图推荐、多任务学习和长序列多行为模式建模在内的广泛任务。
解决学术问题
KuaiSAR数据集的发布解决了学术研究中缺乏大规模、真实世界数据集的问题,这些数据集涵盖了用户在搜索和推荐服务中的行为。现有的数据集要么专注于搜索,要么专注于推荐,而KuaiSAR填补了这一空白。此外,KuaiSAR还记录了用户搜索行为的发生源头,例如主动输入搜索词或点击推荐的查询,这为研究提供了更深入的洞察。KuaiSAR的发布有望推动搜索和推荐服务的联合建模研究,并促进学术与产业之间的交流与合作。
实际应用
KuaiSAR数据集的实际应用场景广泛。在电子商务和视频平台等领域,搜索和推荐服务的结合对于满足用户的多样化信息需求至关重要。KuaiSAR数据集可以用于开发更智能的推荐系统,这些系统可以利用搜索数据来全面理解用户兴趣或商品表示。同时,搜索模型也可以通过引入推荐数据来缓解冷启动问题,或实现更精确的个性化搜索。此外,KuaiSAR还可以用于研究意图推荐,即通过推荐查询来激发用户进行更多的搜索行为。
数据集最近研究
最新研究方向
KuaiSAR数据集的发布标志着搜索和推荐(S&R)服务集成研究的新纪元。该数据集的引入填补了学术界在S&R建模研究中的空白,为研究者提供了真实的用户行为数据。KuaiSAR数据集的独特之处在于它收集了来自中国领先短视频应用Kuaishou的数百万用户的真实S&R行为,这为联合建模和优化S&R服务提供了宝贵的资源。通过记录用户在搜索和推荐服务之间的交互和转换,KuaiSAR不仅支持了S&R的联合建模,还支持了意图推荐、多任务学习和长序列多行为模式建模等任务。KuaiSAR的发布有望激发对S&R服务集成的新研究,并促进学术界和工业界之间的合作,以更好地理解和服务用户的信息需求。
相关研究论文
  • 1
    KuaiSAR: A Unified Search And Recommendation Dataset高瓴人工智能学院 中国人民大学 北京, 中国 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作