deepvk/VK-LSVD
收藏Hugging Face2026-04-16 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/deepvk/VK-LSVD
下载链接
链接失效反馈官方服务:
资源简介:
VK-LSVD是一个包含真实世界互动信息的最大的公开工业短视频推荐数据集。它包含了40B唯一的用户-物品互动,10M用户和20M短视频。数据集按照时间顺序分为训练、验证和测试集,提供了用户和物品的元数据以及物品的内容嵌入向量。
VK-LSVD is the largest open industrial short-video recommendation dataset with real-world interactions, including 40B unique user-item interactions, 10M users, and 20M short videos. The dataset is split into training, validation, and test sets in chronological order, providing user and item metadata as well as item content embeddings.
提供机构:
deepvk
搜集汇总
数据集介绍

构建方式
在短视频推荐系统研究领域,数据集的构建质量直接关系到模型评估的可靠性。VK-LSVD数据集源于真实工业环境,其构建过程严格遵循时间顺序与隐私保护原则。该数据集采集了连续六个月内的用户交互行为,通过全局时间分割策略,将交互记录按周组织并划分为训练、验证和测试集,确保了时序建模的完整性。所有用户、视频及上下文信息均经过匿名化处理,转化为稳定的整数标识符,有效保护了用户隐私,同时维持了数据在分割间的一致性。
特点
VK-LSVD数据集以其空前规模与丰富维度著称,涵盖了400亿条独特的用户-视频交互记录,涉及1000万用户与近2000万短视频项目。其显著特点在于提供了多元化的反馈信号,包括观看时长、点赞、分享、收藏等七种行为,以及用户年龄、性别、地理位置和视频内容嵌入向量等上下文特征。数据集特别设计了可调节维度的内容嵌入向量,支持研究者根据计算资源灵活选取嵌入维度,在模型质量与效率之间取得平衡。这种高密度、多模态的数据结构为深入分析用户短期兴趣演化提供了坚实基础。
使用方法
为适应不同研究场景与硬件条件,VK-LSVD提供了多种可配置的数据子集。研究者可通过Hugging Face平台直接加载预设样本,或利用提供的工具函数自定义子集,例如基于用户流行度分位数或随机抽样来调整数据密度。数据集支持使用Polars等高效工具进行流式加载与处理,确保大规模数据操作的可行性。典型工作流程包括下载交互文件与元数据,依据任务需求筛选用户与项目,并整合内容嵌入向量,从而构建适用于序列推荐、冷启动问题等研究的基准实验环境。
背景与挑战
背景概述
在短视频推荐系统研究领域,大规模、高质量的真实交互数据长期匮乏,制约了算法模型的演进与评估。为应对这一瓶颈,VK团队于2026年正式发布了VK-LSVD数据集,该数据集由Aleksandr Poslavsky等研究人员主导构建,旨在为短视频推荐中的用户兴趣动态建模、序列行为预测及冷启动问题提供实证研究基础。其核心研究问题聚焦于如何利用海量隐式反馈与丰富上下文信息,精准捕捉用户瞬息万变的兴趣偏好。该数据集以其前所未有的规模——涵盖连续六个月的400亿交互记录、1000万用户及2000万视频,迅速成为工业界与学术界评估推荐算法性能的关键基准,对推动下一代推荐系统的研究产生了深远影响。
当前挑战
VK-LSVD数据集致力于解决短视频推荐领域的核心挑战:如何从高密度、时序性的隐式交互信号中有效推断用户意图,并克服数据稀疏性与动态兴趣漂移问题。具体而言,其构建过程面临多重困难:一是隐私保护要求极高,需对用户、视频及上下文信息进行稳定匿名化处理,同时保持数据一致性;二是数据规模庞大,需设计高效的存储与访问机制以支持全球时序划分;三是信号多样性整合复杂,需协调观看时长、点赞、分享等多维度反馈,并确保内容嵌入与协同信号的分离;四是长尾分布显著,需通过可配置子集平衡流行度偏差,以支持冷启动与稀疏场景下的模型验证。
常用场景
经典使用场景
在短视频推荐系统研究中,VK-LSVD数据集凭借其海量真实交互记录与精细的上下文标注,成为评估序列推荐算法的经典基准。该数据集通过全球时间顺序划分,模拟了现实平台中用户兴趣的动态演变,使研究者能够训练模型捕捉短期行为模式,并预测未来交互。其丰富的隐式反馈信号,如观看时长、跳过与完成行为,为理解用户深层偏好提供了多维视角,尤其适用于建模高密度、快节奏的短视频消费场景。
解决学术问题
VK-LSVD有效应对了推荐系统领域若干核心挑战,包括处理极端稀疏的大规模交互数据、建模用户兴趣的时序动态性以及缓解冷启动问题。数据集提供的纯内容嵌入与协同信号分离,支持对内容与协同过滤机制的独立探究。其真实工业场景下的多模态反馈(如点赞、分享、评论打开)使得学术研究能够更精确地量化用户参与度,推动下一代推荐系统在可解释性、公平性与效率方面的理论突破。
衍生相关工作
VK-LSVD自发布以来,已催生了一系列聚焦短视频推荐的创新研究。例如,基于其时序划分的序列建模工作探索了Transformer与循环神经网络在长期兴趣捕捉上的效能;结合内容嵌入的混合推荐方法则致力于缓解物品冷启动问题。该数据集亦是VK RecSys Challenge 2025的核心竞赛数据,激励了全球研究团队开发新颖的排名与召回模型,进一步推动了推荐系统在动态环境下的算法进步与基准标准化。
以上内容由遇见数据集搜集并总结生成



