SceneVersepp

github2026-04-24 更新2026-05-01 收录

下载链接：

https://github.com/sv-pp/SceneVersepp

下载链接

链接失效反馈

官方服务：

资源简介：

标注的3D场景数据稀缺。我们构建了一个自动化数据引擎，将网络视频提升为结构化的3D监督——实例级点云、对象布局、空间视觉问答和视觉语言导航——并通过实验表明，这些生成的数据具有补充广泛的3D场景理解的强大潜力。

Annotated 3D scene data is scarce. We developed an automated data engine that converts web videos into structured 3D supervision, including instance-level point clouds, object layouts, spatial visual question answering, and vision-language navigation. Experiments demonstrate that the generated data has strong potential to complement a wide range of 3D scene understanding tasks.

创建时间：

2026-04-02

原始信息汇总

数据集概述

SceneVerse++ 是一个用于三维场景理解的自动化数据引擎，旨在从网络视频中提取结构化三维监督信息，以弥补带注释三维场景数据的稀缺性。

核心目标

从无标注的网络视频中自动生成高质量的三维场景数据，包括实例级点云、对象布局、空间视觉问答（VQA）和视觉语言导航。

主要功能

数据生成：通过自动化流水线，从网络视频中提取并生成多种三维监督信号。
模型训练支持：提供三维实例分割（基于PQ3D）和三维目标检测（基于SpatialLM）的训练代码。
数据管线：包含视频下载、帧提取、相机姿态可视化等工具。

数据集内容

数据规模：无标注互联网视频数据。
数据类型：
- 实例级点云
- 对象布局（场景中物体的空间位置信息）
- 空间视觉问答（Spatial VQA）
- 视觉语言导航（Vision-Language Navigation）

配套资源

模型训练：
- PQ3D/：三维实例分割训练代码。
- SpatialLM/：三维目标检测训练代码。
数据预处理：
- data_processing/：包含视频下载、帧提取、相机姿态可视化的Python脚本。
预训练权重：可在Hugging Face数据集仓库（https://huggingface.co/datasets/bigai/SceneVersepp）获取。

论文与引用

论文：已发表于CVPR 2026，arXiv预印本地址：https://arxiv.org/abs/2506.07491
引用格式： bibtex @inproceedings{chen2026lifting, title = {Lifting Unlabeled Internet-level Data for 3D Scene Understanding}, author = {Chen, Yixin and Zhang, Yaowei and Yu, Huangyue and He, Junchao and Wang, Yan and Huang, Jiangyong and Shen, Hongyu and Ni, Junfeng and Wang, Shaofei and Jia, Baoxiong and Zhu, Song-Chun and Huang, Siyuan}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026} }

获取与使用

数据集下载：通过Hugging Face CLI命令 huggingface-cli download bigai/SceneVersepp --repo-type dataset --local-dir ./svpp 下载。
环境配置：使用Python 3.10创建环境，安装requirements.txt中的依赖。
数据预处理步骤：
1. 下载YouTube视频（data_processing/download_videos.py）。
2. 提取帧（data_processing/extract_images.py）。
3. 可选：可视化相机姿态（data_processing/view_camera_poses.py）。

应用场景

三维场景理解任务的训练数据补充，如实例分割、目标检测、布局推理、空间问答和导航任务。

搜集汇总

数据集介绍

构建方式

SceneVerse++数据集的构建源自一个自动化的数据引擎，旨在从海量无标注的互联网视频中提取结构化的三维监督信息。该引擎首先从YouTube等来源下载原始视频，随后通过帧提取、摄像机姿态可视化等步骤，将非结构化视觉内容转化为实例级点云、目标布局、空间问答以及视觉语言导航等标注形式。整个过程无需人工干预，能够高效扩充稀缺的三维场景标注数据，为大规模场景理解奠定数据基础。

使用方法

使用SceneVerse++数据集时，首先通过Hugging Face CLI下载完整数据至本地目录。随后设置轻量级数据处理环境，利用提供的脚本进行视频下载、帧提取和摄像机姿态可视化等操作。训练阶段则分别进入PQ3D和SpatialLM两个独立模块，每个模块均配有详细的README指导，涵盖从数据生成、预训练到微调与评估的完整流程，便于研究者在实例分割和三维检测等任务上快速展开实验。

背景与挑战

背景概述

SceneVersepp数据集由Yixin Chen、Yaowei Zhang等研究人员于2026年提出，旨在解决三维场景理解领域标注数据稀缺这一核心瓶颈。传统三维场景理解依赖人工精细标注的室内扫描数据集，其构建成本高昂且规模有限，难以支撑大规模模型训练。该研究基于北京智源人工智能研究院（BIGAI）等机构，创新性地构建了自动化数据引擎，从海量网络视频中提取结构化三维监督信号，包括实例级点云、物体布局、空间问答及视觉语言导航等任务。SceneVersepp为三维场景理解提供了大规模、低成本的训练数据，显著拓宽了该领域的数据来源，对推动三维视觉基础模型的演进具有里程碑式的影响力。

当前挑战

SceneVersepp数据集所解决的领域问题在于三维场景理解中高质量标注数据的匮乏，传统方法依赖昂贵的三维扫描与人工矫正，难以覆盖真实世界的多样性与规模。构建过程中面临的主要挑战包括：如何从无监督的网络视频中鲁棒地恢复密集三维几何与语义信息，视频帧间时间动态及遮挡带来的重建噪声，以及跨场景实例级点云、布局、语言指令等异构监督信号的自动对齐与生成。此外，如何设计高效的数据处理流水线以支持互联网级视频的自动化下载、帧提取与相机位姿解算，亦是工程实现上的核心难点。

常用场景

经典使用场景

SceneVerse++数据集的核心用途在于为三维场景理解提供大规模、自动生成的监督信号。研究者可利用其涵盖的实例级点云、物体布局、空间问答及视觉语言导航等多模态标注，训练和评估三维实例分割、目标检测及场景描述等经典模型。该数据集通过从互联网视频中自动提取结构化三维信息，有效弥合了真实场景与合成数据之间的鸿沟，成为推动三维视觉领域基础模型预训练与泛化能力提升的关键资源。

解决学术问题

该数据集直面三维场景理解中标注数据稀缺这一核心瓶颈。传统依赖人工标注或合成数据的方法成本高昂且泛化性受限，而SceneVerse++通过构建自动化数据引擎，将海量未标注的网络视频高效转化为高精度三维监督信号，研究证实其生成的数据在补充三维场景理解任务方面具有显著潜力。此举不仅大幅降低了数据获取门槛，还为跨场景、跨模态的学术研究提供了可扩展的数据基础，推动了三维视觉从受限实验室环境向开放真实世界的跨越。

实际应用

在实际应用中，SceneVerse++所支持的三维感知能力可广泛落地于机器人自主导航、增强现实空间理解及智能家居场景解析等领域。例如，机器人可借助其标注的物体布局与空间关系数据实现精准环境建模与避障，而AR系统则能利用实例级点云和视觉语言导航信息增强虚实融合的交互体验。该数据集提供的自动化数据生成管线亦可赋能工业场景下的三维质量检测与仓储物流自动化，显著降低对昂贵人工标注的依赖。

数据集最近研究