ScanNet-SG

github2026-04-14 更新2026-04-14 收录

下载链接：

https://github.com/tud-amr/ScanNet-SG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于ScanNet构建，添加了包含开放集视觉-语言（GroundingDINO）特征、BERT特征、边界框等的3D场景图，用于每个场景中的每个对象。该数据集主要用于帧到扫描和子扫描到子扫描的场景图对齐，但也可用于导航验证。

This dataset is built upon ScanNet, augmented with 3D scene graphs encompassing open-set vision-language (GroundingDINO) features, BERT features, bounding boxes, and other relevant annotations for every object in each scene. It is mainly designed for frame-to-scan and sub-scan-to-sub-scan scene graph alignment tasks, and can also be utilized for navigation validation.

创建时间：

2026-03-16

原始信息汇总

ScanNet-SG 数据集概述

数据集基本信息

数据集名称：ScanNet-SG
构建基础：基于 ScanNet 数据集构建
核心内容：添加了包含开放集视觉-语言（GroundingDINO）特征、BERT 特征、边界框等信息的 3D 场景图
主要设计用途：帧到扫描和子扫描到子扫描的场景图对齐，也可用于导航验证

数据集下载

下载指引：请访问 https://github.com/tud-amr/ScanNet-SG/blob/main/download/Download_ScanNet_SG.md

环境安装

仅使用数据集环境

Python 环境：创建 Python 3.10 环境，安装 numpy、matplotlib、open3d
可选功能：安装 opencv-python 以获得完整的可视化功能（用于 ScanNet 中的图像）
C++ 接口：使用 CMake 编译

构建新场景图和对齐数据环境

安装方式：通过 environment.yml 文件创建或更新 Conda 环境
包含功能：运行 Grounded-SAM 开放集掩码、RAM 标记、OpenAI 批处理工具以及可视化/实用工具
注意事项：第三方代码库按需克隆，模型检查点需单独下载
C++ 工具：部分生成脚本调用 C++ 工具，需单独编译

地图接口使用

Python 版本

接口类：script/include/topology_map.py 中的 TopologyMap 类
读取场景图：运行 python script/read_map.py
可视化场景图：运行 python script/visualize_map.py，支持指定数据和交互模式
生成随机场景图：运行 python script/random_map_generator.py

C++ 版本

数据结构：定义于 include/topology_map.h
读取与可视化：运行 ./read_and_visualize_map <map_file>

使用自有数据生成场景图

参考文档：请查阅 OpenSet F2S 数据生成（scannet/readme_openset.md）和 S2S 数据生成（scannet/readme_subscan.md）指南

引用

@dataset{scannet_sg, author = {Gang Chen and Sebastián Barbas Laina and Javier Alonso-Mora}, title = {ScanNet-SG: A Large-Scale Dataset for 3D Scene Graph Alignment}, year = {2026}, doi = {10.4121/bebe8bd4-cf91-4f86-a28a-87cb870f6cea}, url = {https://data.4tu.nl/datasets/bebe8bd4-cf91-4f86-a28a-87cb870f6cea} }

许可证

代码许可证：Apache-2.0
数据集许可证：CC BY-NC 4.0

搜集汇总

数据集介绍

构建方式

在三维场景理解领域，ScanNet-SG数据集以ScanNet为基础，通过引入三维场景图结构实现了显著扩展。其构建过程首先利用GroundingDINO等开放集视觉语言模型提取每个物体的多模态特征，同时整合了BERT语义特征与精确的三维边界框信息。该数据集采用系统化的数据生成流程，包括开放集掩码生成、RAM标注以及专用工具链处理，最终形成包含丰富对象级注释的大规模三维场景图集合，为复杂场景的结构化表征奠定了坚实基础。

特点

ScanNet-SG的核心特点在于其融合了开放世界感知能力的三维场景图表示。每个场景图不仅包含传统的几何与拓扑关系，还集成了视觉语言模型提取的开放集特征，使得物体表征具备更强的语义泛化性。数据集特别针对帧到扫描与子扫描到子扫描的场景图对齐任务进行优化，同时支持导航验证等下游应用。其多模态特性与精心设计的结构化为三维场景理解研究提供了兼具广度与深度的数据支持。

使用方法

该数据集提供了Python与C++双接口以适配不同研究需求。用户可通过TopologyMap类轻松加载JSON格式的场景图文件，并利用可视化工具交互式探索三维场景结构。对于高级应用，环境配置支持完整的数据生成流程复现，包括开放集掩码生成与对齐数据构建。研究人员既可将其作为基准数据集进行场景图对齐算法验证，也可基于提供的工具链扩展生成自定义的三维场景图数据，推动开放世界三维感知技术的发展。

背景与挑战

背景概述

三维场景理解是计算机视觉与机器人领域的核心研究方向，旨在赋予机器感知复杂环境结构及其语义关系的能力。ScanNet-SG数据集于2026年由Gang Chen、Sebastián Barbas Laina与Javier Alonso-Mora等研究人员构建，其基础源于广泛使用的ScanNet三维扫描数据集。该数据集的核心创新在于为每个场景中的物体注入了开放集视觉-语言特征、BERT语义嵌入及边界框等信息，从而构建出丰富的三维场景图。其主要研究目标在于推动帧到扫描及子扫描到子扫描的场景图对齐任务，同时也为导航验证等应用提供支撑，标志着三维场景表征从几何层面向语义与关系层面的深化演进。

当前挑战

在三维场景图对齐这一新兴领域，核心挑战在于如何实现跨不同视角、不同粒度扫描数据间的准确语义关联，尤其是在开放世界环境下处理未知或罕见物体类别。ScanNet-SG构建过程中面临多重技术难题：首先，需将二维图像中的开放集视觉-语言特征（如通过GroundingDINO模型提取）与三维点云数据进行稳健融合，确保跨模态信息的一致性；其次，大规模场景中物体实例的标注与关系构建需克服数据噪声、遮挡以及语义歧义等问题；此外，生成兼具几何精度与语义丰富度的场景图，并对齐不同扫描片段，对算法效率与泛化能力提出了较高要求。

常用场景

经典使用场景

在三维场景理解与机器人导航领域，ScanNet-SG数据集通过融合开放集视觉语言特征与BERT语义嵌入，为帧到扫描及子扫描间的场景图对齐任务提供了基准平台。该数据集以ScanNet为基础，扩展了包含物体边界框、多模态特征的场景图结构，使得研究者能够系统评估不同对齐算法在复杂室内环境中的鲁棒性与准确性，尤其适用于跨视角场景匹配与空间关系推理的研究。

衍生相关工作

基于ScanNet-SG数据集，学术界已衍生出多项经典研究，如OpenSGA框架，该工作专注于开放世界中的高效三维场景图对齐方法。同时，该数据集也促进了跨模态学习、神经场景图生成以及视觉语言导航等方向的发展，为后续研究提供了可扩展的基准与评估标准，持续推动三维人工智能领域的技术创新与理论深化。

数据集最近研究