five

VK-LSVD

收藏
arXiv2026-02-04 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/deepvk/VK-LSVD
下载链接
链接失效反馈
官方服务:
资源简介:
VK-LSVD是由俄罗斯社交巨头VK旗下AI团队与莫斯科国立大学联合构建的工业级短视频推荐数据集,为当前公开规模最大的同类数据集。该数据集包含6个月内1000万用户与2000万视频产生的407亿次交互行为,涵盖内容嵌入向量、多模态反馈信号(如观看时长、点赞、评论)及上下文元数据等丰富特征。数据经过严格匿名化处理,通过分层采样支持定制化子集生成,其全局时间划分机制为研究用户兴趣演化提供了独特优势。该数据集旨在推动序列推荐、冷启动场景及多模态推荐系统的前沿研究,已应用于2025年VK推荐系统挑战赛。

VK-LSVD is an industrial-grade short-video recommendation dataset jointly constructed by the AI team of VK, the Russian social media giant, and Lomonosov Moscow State University, and it is currently the largest public dataset of its kind. This dataset contains 40.7 billion interaction behaviors between 10 million users and 20 million videos over a 6-month period, covering rich features such as content embedding vectors, multimodal feedback signals (e.g., watch duration, likes, comments) and contextual metadata. The data has undergone strict anonymization processing, supports customized subset generation via stratified sampling, and its global temporal partitioning mechanism provides a unique advantage for researching the evolution of user interests. This dataset aims to advance cutting-edge research on sequential recommendation, cold-start scenarios and multimodal recommendation systems, and has been applied to the 2025 VK Recommendation System Challenge.
提供机构:
VK AI; 莫斯科国立大学·AI中心
创建时间:
2026-02-04
原始信息汇总

VK-LSVD 数据集概述

数据集基本信息

  • 数据集名称:VK-LSVD (Large Short-Video Dataset)
  • 许可证:Apache-2.0
  • 任务类别:表格分类、表格回归、图机器学习、其他
  • 标签:推荐系统、短视频、片段、检索、排序、用户建模、工业、真实世界
  • 数据规模:100亿到1000亿条数据之间
  • 语言:英语
  • 官方描述:最大的开源工业短视频推荐数据集,包含真实世界的交互数据。

核心数据规模

  • 用户数量:10,000,000
  • 视频项目数量:19,627,601
  • 唯一交互数量:40,774,024,903
  • 交互密度:0.0208%
  • 总观看时间:858,160,100,084秒
  • 点赞数:1,171,423,458
  • 点踩数:11,860,138
  • 分享数:262,734,328
  • 收藏数:40,124,463
  • 作者点击数:84,632,666
  • 评论打开数:481,251,593

数据时间范围

  • 时间跨度:连续六个月的用户交互数据
  • 时间顺序:全局时间排序
  • 数据划分:训练集/验证集/测试集按时间顺序划分(过去数据用于训练,未来数据用于验证/测试)

数据结构与内容

交互数据

  • 数据位置:https://huggingface.co/datasets/deepvk/VK-LSVD/tree/main/interactions
  • 数据格式:每周一个文件(week_XX.parquet),文件内按时间戳递增排序
  • 关键特性:每个用户-项目对没有重复曝光
  • 字段说明
    • user_id:用户标识符(uint32)
    • item_id:视频标识符(uint32)
    • place:位置(24个ID,uint8)
    • platform:平台(11个ID,uint8)
    • agent:客户端(29个ID,uint8)
    • timespent:观看时间(0-255秒,uint8)
    • like:用户是否点赞(布尔值)
    • dislike:用户是否点踩(布尔值)
    • share:用户是否分享(布尔值)
    • bookmark:用户是否收藏(布尔值)
    • click_on_author:用户是否打开作者页面(布尔值)
    • open_comments:用户是否打开评论部分(布尔值)

用户元数据

  • 数据位置:https://huggingface.co/datasets/deepvk/VK-LSVD/blob/main/metadata/users_metadata.parquet
  • 字段说明
    • user_id:用户标识符(uint32)
    • age:年龄(18-70岁,uint8)
    • gender:性别(uint8)
    • geo:最常用户位置(80个ID,uint8)
    • train_interactions_rank:用于采样的流行度排名(越低表示交互越多,uint32)

项目元数据

  • 数据位置:https://huggingface.co/datasets/deepvk/VK-LSVD/blob/main/metadata/items_metadata.parquet
  • 字段说明
    • item_id:视频标识符(uint32)
    • author_id:作者标识符(uint32)
    • duration:视频时长(秒,uint8)
    • train_interactions_rank:用于采样的流行度排名(越低表示交互越多,uint32)

嵌入数据

  • 数据位置:https://huggingface.co/datasets/deepvk/VK-LSVD/blob/main/metadata/item_embeddings.npz
  • 嵌入特性
    • 严格基于内容训练(视频/描述/音频等)
    • 不包含协同信号
    • 组件有序排列:前n个组件的点积近似于原始生产嵌入的余弦相似度
    • 支持1到64维度的选择,以权衡质量和速度/内存
  • 字段说明
    • item_id:视频标识符(uint32)
    • embedding:项目内容嵌入(float16[64])

隐私保护措施

  • 所有分类元数据(user_idgeoitem_idauthor_idplaceplatformagent)都匿名化为稳定的整数ID
  • ID在不同划分中保持一致
  • 不提供反向映射

可配置子集

数据集提供多个预定义的子集,用于快速实验:

子集名称 用户数 项目数 交互数 密度
whole 10,000,000 19,627,601 40,774,024,903 0.0208%
ur0.1 1,000,000 18,701,510 4,066,457,259 0.0217%
ur0.01 100,000 12,467,302 407,854,360 0.0327%
ur0.01_ir0.01 90,178 125,018 4,044,900 0.0359%
up0.01_ir0.01 100,000 171,106 38,404,921 0.2245%
ur0.01_ip0.01 99,893 196,277 191,625,941 0.9774%
up0.01_ip0.01 100,000 196,277 1,417,906,344 7.2240%
up0.001_ip0.001 10,000 19,628 47,976,280 24.4428%
up-0.9_ip-0.9 8,939,432 17,654,817 2,861,937,212 0.0018%

命名规则

  • urX:X比例的随机用户
  • ipX:X比例的流行项目(按train_interactions_rank
  • 负X表示最不受欢迎的部分(例如−0.9表示底部90%)

数据访问说明

  • 测试集将在即将到来的挑战赛后发布
  • 提供快速开始代码示例,用于加载小型子集
  • 提供实用工具函数,用于根据任务、数据预算和硬件需求组合自定义子集
搜集汇总
数据集介绍
main_image_url
构建方式
在短视频推荐系统研究领域,构建能够真实反映平台动态的大规模数据集至关重要。VK-LSVD数据集的构建源于俄罗斯最大社交媒体生态系统VK的短视频服务匿名化交互日志。数据采集历时六个月,涵盖了高并发环境下用户与内容的密集交互。所有用户、项目和作者标识均经过不可逆的匿名化处理,转换为稳定的整数ID,并彻底移除个人可识别信息。原始视频、音频或文本内容均未包含,仅提供通过专有模型生成的内容嵌入向量,确保原始内容无法重建。数据集采用全局时间分割策略,将连续27周的数据划分为训练集、验证集和测试集,每周交互记录以Parquet文件格式存储,确保时间序列的完整性和研究鲁棒性。
特点
该数据集在规模与多样性方面具有显著优势,包含来自1000万用户与近2000万视频的超过400亿次交互,是目前公开的最大规模工业级短视频推荐数据集。其核心特征体现在多维反馈信号的完整性上,不仅涵盖观看时长等隐式反馈,还整合了点赞、点踩、分享、收藏等显式反馈,以及作者资料点击、评论打开等深度参与信号。数据集提供了丰富的上下文元数据,包括消费场景、用户平台和客户端代理等信息,并附有用户人口统计特征和基于内容的64维项目嵌入向量。用户活动与项目流行度均呈现典型的幂律分布,真实反映了现实世界平台的动态特性,为研究冷启动场景和长尾推荐提供了理想的数据基础。
使用方法
该数据集已公开发布于Hugging Face平台,采用Apache 2.0许可协议,支持学术与商业研究。为降低使用门槛,数据集提供了预配置的子集,如随机抽取1%用户的ur0.01子集和基于流行度的ip0.01子集,并附有实用脚本支持研究者根据计算资源与研究需求生成定制化样本。数据集支持多种推荐系统研究范式,包括序列推荐、会话感知推荐、上下文感知推荐以及混合推荐方法。其全局时间分割结构特别适用于研究用户偏好演化与项目流行度变迁。数据集已成功应用于VK RecSys Challenge 2025竞赛,该竞赛聚焦于新项目的冷启动用户排名任务,采用NDCG@100作为评估指标,为基于内容的顺序模型建立了稳健的基准测试框架。
背景与挑战
背景概述
随着短视频平台的迅猛发展,数字内容消费模式已发生根本性变革,其特征表现为用户高频、基于会话的交互行为。在此背景下,设计高效的短视频推荐系统面临独特挑战,包括依赖隐式反馈(如观看时长)作为用户偏好的主要信号,以及需要结合多模态内容对复杂且快速演变的用户行为进行建模。然而,该领域的研究进展长期受限于缺乏能够真实反映现实平台动态的大规模公开数据集。为填补这一空白,VK AI与莫斯科国立大学的研究团队于2025年联合发布了VK-LSVD数据集。该数据集采集自俄罗斯最大的社交媒体生态系统VK,覆盖了六个月内1000万用户与近2000万视频产生的超过400亿次交互,并提供了内容嵌入、多样化的反馈信号及丰富的上下文元数据。VK-LSVD的发布旨在为序列推荐、冷启动场景及下一代推荐系统的研究提供至关重要的开放基准,其影响力已通过作为2025年VK RecSys Challenge核心数据集得到初步验证。
当前挑战
VK-LSVD数据集致力于解决短视频推荐领域的核心挑战,即如何从海量隐式反馈中精准建模用户快速变化的兴趣,并应对内容冷启动问题。该领域问题的挑战在于,用户与短视频的交互具有瞬时性、序列性及多模态依赖性,传统推荐算法难以有效捕捉其动态模式。在数据集构建过程中,研究团队面临多重技术挑战。首先,需在确保用户隐私的前提下,对来自高并发工业环境的海量交互日志进行高效匿名化与清洗,并维持用户与项目标识的稳定性。其次,为真实反映平台动态,必须设计全局时间分割策略,以支持对用户偏好演化的稳健研究。此外,整合多维度特征(如内容嵌入、多样反馈信号及上下文元数据)并保证其一致性与完整性,亦对数据工程提出了极高要求。最后,如何降低数据使用的计算门槛,通过提供预配置子集与工具脚本促进广泛研究,同样是构建过程中需克服的关键障碍。
常用场景
经典使用场景
在短视频推荐系统研究领域,VK-LSVD数据集为构建真实世界基准测试提供了核心支撑。其经典使用场景聚焦于序列推荐模型的训练与评估,研究者可利用该数据集长达六个月的时序交互记录,模拟用户兴趣的动态演变过程。通过整合丰富的隐式反馈信号如观看时长、点赞、分享等,以及多模态内容嵌入,该数据集能够支持从会话内短期行为到长期偏好迁移的复杂建模任务,为下一代推荐算法的创新奠定数据基础。
解决学术问题
VK-LSVD有效解决了短视频推荐领域若干关键学术问题。其一,它通过提供超大规模的真实交互数据,缓解了以往研究因数据稀缺而难以捕捉用户兴趣快速迁移的困境。其二,数据集涵盖的多样化反馈信号与上下文元数据,使得基于隐式反馈的偏好建模、冷启动场景下的内容分发等挑战得以深入探索。此外,其严格的全局时间划分机制为序列推荐模型的稳健性评估提供了标准框架,推动了学术成果向工业场景的可靠迁移。
衍生相关工作
VK-LSVD的发布催生了一系列衍生研究与实践。以该数据集为核心的VK RecSys Challenge 2025吸引了全球近800支团队参与,推动了针对冷启动排名问题的算法创新。在学术层面,其丰富的数据结构激励了关于多任务学习、跨域推荐以及时序动态建模的新方法探索。与KuaiRand、Tenrec等现有数据集形成互补,VK-LSVD凭借其独特的平台多样性与空前规模,正在成为评估序列推荐、会话分析及混合推荐系统性能的新一代基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作