KuaiRS
收藏arXiv2025-07-21 更新2025-07-23 收录
下载链接:
https://github.com/rainym00d/KuaiRS
下载链接
链接失效反馈官方服务:
资源简介:
KuaiRS是一个大规模的真实世界数据集,从快手应用程序上收集,用于视频相关搜索的查询推荐。该数据集包含1,020,000个视频-查询对,旨在解决传统推荐方法中缺乏物品与查询之间深度交互的问题,以及查询推荐中存在的有效性、搜索结果页消费、相关性和文字质量等挑战。数据集分为视频部分和查询部分,视频部分包括视频标题和视频封面内容,查询部分包含查询本身。数据集的创建过程包括数据收集、数据清洗和随机抽样,以确保数据的质量和代表性。该数据集适用于学术研究和工业应用,以改进视频相关搜索的查询推荐效果。
KuaiRS is a large-scale real-world dataset collected from the Kuaishou application for query recommendation in video-related search. It contains 1,020,000 video-query pairs, aiming to address the limitations of traditional recommendation methods in lacking deep interaction between items and queries, as well as multiple core challenges in query recommendation including effectiveness, search result page consumption, relevance, and text quality. The dataset is split into two sections: the video section and the query section. The video section includes video titles and video cover content, while the query section contains the queries themselves. The dataset creation process encompasses data collection, data cleaning and random sampling to ensure data quality and representativeness. This dataset is suitable for both academic research and industrial applications to improve the performance of query recommendation for video-related search.
提供机构:
中国人民大学, 快手科技有限公司
创建时间:
2025-07-21
原始信息汇总
KuaiRS数据集概述
数据集简介
- 名称:KuaiRS
- 用途:用于I2Q推荐(Item-to-Query推荐)的大规模真实世界数据集
- 来源:中国领先的短视频应用快手(Kuaishou),日活跃用户超过4亿
数据集特点
- 应用场景:在短视频推荐界面底部展示与当前视频相关的查询词,简化用户搜索行为链
- 优势:
- 降低用户搜索成本
- 相比用户自拟查询词,能更准确地描述内容(如热门话题和梗)
- 作为推荐和搜索之间的桥梁,将用户被动兴趣转化为主动兴趣
下载信息
-
存储位置:Zenodo平台
-
下载方式:
- 浏览器下载:https://zenodo.org/record/14929343
- 命令行下载: bash wget https://zenodo.org/record/14929343/files/KuaiRS.tar.gz tar zxvf KuaiRS.tar.gz
许可协议
- 类型:知识共享署名-非商业性使用4.0国际许可协议(CC BY-NC 4.0)
- 详情:http://creativecommons.org/licenses/by-nc/4.0/
搜集汇总
数据集介绍

构建方式
KuaiRS数据集的构建基于快手平台的实际用户日志,涵盖了2024年5月23日至29日期间的视频-查询对。数据收集后,通过严格的清洗流程筛选高质量数据,包括曝光量、点击率阈值过滤,以及基于MBVR算法的视频-查询相关性验证。最终,数据集按时间顺序划分为训练集、验证集和测试集,确保分布一致性。
特点
KuaiRS数据集包含102万视频-查询对,覆盖超过40万短视频和41万查询,具有丰富的多模态特征。视频部分包含用户上传的标题和OCR识别的封面文本,查询部分则聚焦用户实际搜索行为。数据平均查询长度为7.41词,视频标题达32.55词,体现了短视频场景下内容与搜索意图的复杂关联。
使用方法
该数据集适用于视频搜索推荐(I2Q)任务的研究,支持基于检索和生成的方法验证。使用时需加载视频元数据(caption/ocr_cover)与查询标签,可结合GREAT框架的查询树引导策略进行模型训练。测试阶段建议采用Edit@k指标评估生成查询与真实查询的编辑距离,同时关注曝光、点击率等在线指标。
背景与挑战
背景概述
KuaiRS数据集由快手科技与中国人民大学的研究团队于2025年联合发布,旨在解决短视频平台中视频到查询推荐(Item-to-Query, I2Q)这一新兴场景的学术研究空白。该数据集源自快手APP真实用户日志,覆盖超过400万日活跃用户的行为数据,包含百万级视频-查询对,并整合了视频标题、封面OCR文本及用户搜索查询等多模态信息。作为首个公开的大规模I2Q研究数据集,KuaiRS推动了推荐系统与搜索引擎的交叉领域研究,为理解用户从被动推荐到主动搜索的意图转换提供了重要实证基础。
当前挑战
KuaiRS面临的挑战主要体现在两方面:领域问题层面,I2Q推荐需同时优化查询曝光率、点击率、搜索结果页消费、内容相关性及文本质量四个相互冲突的目标,传统基于嵌入的检索方法因缺乏深度语义交互而性能受限;数据构建层面,需克服短视频内容动态性强导致的语义漂移问题,通过MBVR算法过滤低相关性数据,并设计基于曝光量与点击率的动态阈值清洗机制以确保数据质量。此外,生成式方法还需解决大语言模型直接生成查询时存在的文本质量风险(如错别字、谣言),这要求构建高质量的查询前缀树(Trie)进行生成约束。
常用场景
经典使用场景
KuaiRS数据集在短视频平台的相关搜索查询推荐任务中具有经典应用场景。该数据集通过捕捉用户在观看短视频时的搜索意图,为研究者提供了丰富的视频-查询对数据。这些数据能够有效支持从视频内容到相关搜索查询的推荐任务,帮助研究者深入理解用户从被动推荐到主动搜索的行为转换过程。
实际应用
在实际应用中,KuaiRS数据集支撑了快手等短视频平台优化其相关搜索推荐服务。通过分析用户观看视频后触发的搜索行为,平台能够精准推荐相关查询,显著缩短用户从观看视频到获取信息的路径。这种应用不仅提升了用户体验,还增加了平台的用户粘性和搜索转化率。
衍生相关工作
基于KuaiRS数据集,研究者提出了GREAT框架等创新方法。这些工作利用大型语言模型(LLMs)和查询前缀树(trie)结构,显著提升了查询推荐的相关性和质量。该数据集还启发了后续关于多模态推荐、用户行为建模等方向的研究,推动了短视频与搜索场景的深度融合。
以上内容由遇见数据集搜集并总结生成



