SpatialVID

github2025-09-12 更新2025-09-13 收录

下载链接：

https://github.com/NJU-3DV/SpatialVID

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialVID是一个大规模野外视频数据集，包含多样化的场景、相机运动和密集的3D标注，如每帧相机位姿、深度和运动指令。具体收集了超过21,000小时的原始视频，通过分层过滤流程处理成270万个片段，总计7,089小时的动态内容。标注流程丰富了这些片段的详细空间和语义信息，包括相机位姿、深度图、动态掩码、结构化标题和序列化运动指令。

SpatialVID is a large-scale outdoor video dataset featuring diverse scenes, camera motions, and dense 3D annotations including per-frame camera poses, depth maps and motion instructions. Specifically, over 21,000 hours of raw videos were collected, then processed into 2.7 million clips via a hierarchical filtering pipeline, resulting in a total of 7,089 hours of dynamic content. The annotation workflow enriches these clips with comprehensive spatial and semantic information, encompassing camera poses, depth maps, dynamic masks, structured captions and sequential motion instructions.

创建时间：

2025-09-10

原始信息汇总

SpatialVID 数据集概述

数据集基本信息

名称：SpatialVID
全称：A Large-Scale Video Dataset with Spatial Annotations
类型：大规模视频数据集
主要特点：包含空间标注的野外视频

数据规模与内容

原始视频量：超过 21,000 小时
处理后的视频片段：270 万片段
动态内容总时长：7,089 小时
标注类型：
- 每帧相机位姿
- 深度图
- 动态掩码
- 结构化描述
- 序列化运动指令

数据采集与处理

采集方式：从 YouTube 下载原始视频
处理流程：通过分层过滤管道处理成片段
标注流程：添加详细的空间和语义信息

数据特点

场景多样性：多样化场景
相机运动：多种相机运动
标注丰富性：密集的 3D 标注
真实性：真实世界动态场景
地面真实性：真实相机运动

应用价值

模型泛化：提高模型泛化能力
性能提升：直接促进模型性能提升
研究领域：视频和 3D 视觉研究社区的关键资产

可用资源

论文地址：https://arxiv.org/abs/2509.09676
代码仓库：https://github.com/NJU-3DV/SpatialVID
数据集地址：https://huggingface.co/SpatialVID
项目页面：https://nju-3dv.github.io/projects/SpatialVID/

发布信息

发布日期：2025年9月11日
发布内容：论文、代码和 SpatialVid-HQ 数据集

许可证

仓库许可证：Apache 2.0 License
组件许可证：需遵循各组件许可证

引用信息

bibtex @misc{wang2025spatialvidlargescalevideodataset, title={SpatialVID: A Large-Scale Video Dataset with Spatial Annotations}, author={Jiahao Wang and Yufeng Yuan and Rujie Zheng and Youtian Lin and Jian Gao and Lin-Zhuo Chen and Yajie Bao and Yi Zhang and Chang Zeng and Yanxi Zhou and Xiaoxiao Long and Hao Zhu and Zhaoxiang Zhang and Xun Cao and Yao Yao}, year={2025}, eprint={2509.09676}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.09676}, }

搜集汇总

数据集介绍

构建方式

在空间智能研究领域，大规模高质量训练数据的稀缺性长期制约着模型的泛化能力与真实世界适应性。SpatialVID通过分层过滤流程构建，首先从开放平台收集超过21,000小时的原始视频，经过质量筛选与运动特征分析后，提炼出270万段视频片段，总时长达到7,089小时。随后采用自动化标注管线，集成MegaSAM、RAFT、Depth Anything等先进模型，为每帧视频生成相机位姿、深度图、动态掩码等密集空间标注，最终形成兼具规模与精度的多维标注数据集。

特点

该数据集的核心价值体现在其前所未有的标注丰富度与场景多样性。不仅包含逐帧相机位姿、稠密深度信息和运动指令序列，还提供了结构化语义描述与动态物体掩码。数据覆盖室内外场景、自然风光、人类活动等多种真实动态环境，相机运动模式包含平移、旋转、缩放等复杂轨迹。统计表明其场景分布均衡，标注质量显著优于现有数据集，能够有效支撑视觉模型在三维理解、运动推理等任务上的泛化性能提升。

使用方法

研究者可通过HuggingFace平台或官方提供的下载脚本获取数据集完整资源。使用前需配置Python 3.10环境并安装所需依赖包，包括PyTorch、OpenCV及专用标注工具链。数据集支持端到端的空间任务训练流程，用户可调用预置脚本进行视频质量评分、空间标注提取与语义描述生成。针对特定研究需求，还可单独调用相机位姿估计、深度预测等模块，兼容主流三维视觉框架如Open-Sora、Viser等。

背景与挑战

背景概述

空间智能领域在三维重建与世界探索方面取得了显著进展，然而现有模型的可扩展性与真实世界保真度受限于高质量训练数据的稀缺性。由南京大学与中国科学院自动化研究所联合研发的SpatialVID数据集于2025年发布，旨在通过大规模野外视频数据提供密集三维标注，包括逐帧相机位姿、深度图与运动指令。该数据集包含21000小时原始视频，经分级筛选处理为270万段剪辑，总计7089小时动态内容，其多样化的场景与相机运动模式显著提升了三维视觉模型的泛化能力与性能表现。

当前挑战

该数据集致力于解决动态场景中空间感知与运动理解的复合难题，其核心挑战在于如何从非结构化视频中提取精确的相机运动轨迹与三维几何信息。构建过程中面临多模态标注协同的复杂性，需同步生成相机位姿、深度估计、动态遮罩及结构化描述，同时需克服大规模视频数据处理中的计算效率与标注一致性难题。真实场景的照明变化、遮挡现象及运动模糊进一步增加了空间标注的精度保障难度。

常用场景

经典使用场景

在三维视觉研究领域，SpatialVID数据集为动态场景的空间理解提供了重要支撑。该数据集包含超过7000小时的标注视频，涵盖多样化真实场景与复杂相机运动，其经典应用场景集中于训练和评估视觉里程计、同时定位与地图构建（SLAM）以及神经辐射场（NeRF）等模型。研究者可利用其每帧相机位姿、深度图及运动指令数据，显著提升模型在复杂环境下的空间推理与三维重建能力。

衍生相关工作

自SpatialVID发布以来，已催生多项重要研究工作，涵盖神经渲染、视频生成与运动分解等多个方向。部分研究利用其运动指令和相机轨迹数据，开发出能够合成高质量动态场景的视频生成模型；另一些工作则结合其深度与分割标注，推进了视频实例分割与多目标跟踪算法的发展。这些衍生成果显著扩展了三维视觉与视频理解的研究边界。

数据集最近研究