SpatialVID-HQ

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/SpatialVID/SpatialVID-HQ

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialVID-HQ数据集是一个高质量的视频数据集，包含了视频文件和相应的注释信息。它适用于需要视频分析和处理的应用，如视频美学评估、动态内容分析等。

The SpatialVID-HQ dataset is a high-quality video dataset containing video files and corresponding annotation information. It is suitable for applications requiring video analysis and processing, such as video aesthetic assessment, dynamic content analysis, etc.

创建时间：

2025-09-04

原始信息汇总

SpatialVID-HQ 数据集概述

数据集基本信息

名称：SpatialVID-HQ
许可证：CC-BY-NC-SA-4.0（署名-非商业性使用-相同方式共享 4.0 国际）
语言：英语
数据规模：大于1TB

数据集结构

目录组织

DATA_PATH/ ├─ annotations/ │ ├─ group_0001/ │ │ ├─ 0a00f99d/ │ │ │ ├─ caption.json │ │ │ ├─ dyn_masks.npz │ │ │ ├─ intrinsics.npy │ │ │ └─ poses.npy │ │ ├─ 0a7b25d8/ │ │ │ ├─ caption.json │ │ │ ├─ dyn_masks.npz │ │ │ ├─ intrinsics.npy │ │ │ └─ poses.npy │ │ └─ ... │ ├─ group_0002/ │ └─ ... ├─ videos/ │ ├─ group_0001/ │ │ ├─ 0a00f99d.mp4 │ │ ├─ 0a7b25d8.mp4 │ │ └─ ... │ ├─ group_0002/ │ └─ ... ├─ metadata.csv └─ README.md

文件类型

视频文件：MP4格式
标注文件：
- caption.json：视频描述
- dyn_masks.npz：动态掩码
- intrinsics.npy：相机内参
- poses.npy：相机位姿
元数据文件：metadata.csv

元数据信息

metadata.csv文件包含以下字段：

id：视频片段的唯一标识符
group id：视频所属组的标识符
video path：视频文件的相对路径
annotation path：标注文件的相对路径
num frames：视频帧数
fps：视频帧率
resolution：视频分辨率
aesthetic score：美学评分
luminance score：亮度评分
motion score：运动评分
ocr score：OCR评分
moveDist：相机移动距离
distLevel：相机移动距离等级（1-5级）
rotAngle：相机旋转角度
trajTurns：轨迹转弯次数
dynamicRatio：动态内容比例
motionTags：运动描述标签
sceneType：场景类型（室内、室外等）
brightness：亮度水平（暗、正常、亮）
timeOfDay：拍摄时间（早晨、下午、傍晚、夜晚）
weather：天气条件（晴天、多云、雨天）
crowdDensity：人群密度（稀疏、中等、密集）

下载方式

使用以下命令下载完整数据集：

hf download SpatialVID/SpatialVID-HQ --repo-type dataset

使用说明

解压group_0*.tar.gz文件：

tar -xzvf annotations/group_0001.tar.gz tar -xzvf annotations/group_0002.tar.gz ...

使用pandas加载元数据： python import pandas as pd metadata = pd.read_csv(metadata.csv)

许可证信息

采用CC-BY-NC-SA-4.0许可证，要求：

必须署名原作者
仅限非商业用途
衍生作品必须采用相同许可证

搜集汇总

数据集介绍

构建方式

在计算机视觉与视频分析领域，SpatialVID-HQ数据集通过系统化的数据采集与标注流程构建而成。其视频素材源自多样化真实场景，涵盖室内外环境、不同天气条件及时间段，每个视频片段均配备高精度空间标注，包括动态遮罩、相机内参、姿态矩阵以及自然语言描述。数据组织采用分组存储结构，每组包含若干视频及其对应的多维注释文件，确保了数据结构的一致性与可扩展性。

特点

该数据集的核心特点在于其丰富且细粒度的元数据标注体系，不仅提供视频的基本属性如帧数、分辨率、帧率，还引入了美学评分、动态比例、运动标签等高级语义指标。特别值得注意的是，数据集量化了相机运动轨迹、旋转角度及动态内容占比，并标注了场景类型、光照条件、人群密度等上下文信息，为多模态视觉-语言研究提供了立体化的数据支撑。

使用方法

研究者可通过元数据表格对数据集进行高效筛选与定制化使用，利用pandas等工具按运动强度、场景类型或光学特性快速提取子集。每个视频组别以压缩包形式分发，解压后即可获得同步的视频文件与结构化标注数据，其中动态遮罩采用npz格式存储，相机参数使用npy矩阵记录，自然语言描述以JSON格式保存，支持直接接入现代深度学习框架进行端到端训练与评估。

背景与挑战

背景概述

SpatialVID-HQ数据集作为计算机视觉领域的重要资源，专注于视频空间理解与动态场景分析。该数据集由专业研究团队构建，旨在推动三维视觉与运动感知技术的发展。其核心研究问题围绕视频中的相机运动轨迹、动态物体分割及场景语义理解展开，为神经渲染、SLAM和视频生成等任务提供高质量标注数据。通过提供精确的相机参数、动态掩码和丰富的元数据，该数据集显著提升了视频理解模型的性能与泛化能力。

当前挑战

SpatialVID-HQ数据集主要解决视频空间理解中相机运动估计与动态物体分割的复杂性问题。构建过程中面临多重挑战：需处理超1TB的大规模视频数据，确保标注的一致性与精确性；动态掩码生成需区分主体运动与相机运动，避免标注噪声；多维度元数据（如运动标签、光照条件、场景类型）的标准化标注需要跨领域专业知识。此外，数据采集需覆盖多样化的场景、天气和时间条件，以保证数据集的代表性和平衡性。

常用场景

经典使用场景

在计算机视觉与三维场景理解领域，SpatialVID-HQ数据集凭借其高分辨率视频序列与精确的空间标注信息，成为研究动态场景结构与相机运动建模的重要资源。该数据集广泛应用于视觉SLAM、神经辐射场（NeRF）重建、动态对象分割等任务，为算法提供了真实世界中复杂光照、多样运动模式和丰富场景类型的训练与评估环境。

解决学术问题

该数据集有效解决了动态场景中相机位姿估计、运动物体分离与背景重建等关键学术难题。通过提供逐帧相机参数、动态掩码与轨迹标注，支持研究者开发能够区分静态与动态元素、实现鲁棒三维重建的算法，推动了视觉几何理解与场景解耦表示的前沿进展。

衍生相关工作

基于SpatialVID-HQ已衍生出一系列经典工作，包括动态NeRF扩展模型、语义SLAM系统以及视频实例分割方法。这些研究利用其丰富的运动标注与场景元数据，推动了时空一致性建模、多对象跟踪与场景语义理解等方向的融合发展，形成了新的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集