triangulang-scannetpp-cache

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/bag100/triangulang-scannetpp-cache

下载链接

链接失效反馈

官方服务：

资源简介：

TrianguLang ScanNet++预处理数据集是为在ScanNet++数据集上训练和评估TrianguLang模型而准备的预处理数据。该数据集包含深度图、相机位姿和光栅化的语义分割掩码，适用于3D场景理解、深度估计和语义分割等任务。数据集规模介于10万到100万之间，具体包含四个主要目录：DA3-NESTED深度和位姿缓存（1008px分辨率，训练和验证场景）、验证集所有帧的深度和位姿缓存、训练集和验证集的每像素语义掩码。深度数据采用Depth Anything V3模型生成，包含深度图、相机外参、内参、深度置信度和处理分辨率等信息。语义掩码是从ScanNet++的3D网格标注光栅化到DSLR图像上的每像素实例ID。使用本数据集需要原始ScanNet++数据集的RGB图像、相机内参和场景元数据。数据集适用于计算机视觉和3D场景理解领域的研究。

创建时间：

2026-03-30

原始信息汇总

TrianguLang ScanNet++ 预处理数据集概述

数据集基本信息

数据集名称: TrianguLang ScanNet++ Preprocessed Data
许可证: CC BY-NC-SA 4.0
标签: 3D, 深度, 分割, scannetpp, 多视角
数据规模: 100K < n < 1M

数据集描述

本数据集为在 ScanNet++ 数据集上训练和评估 TrianguLang 模型而提供的预处理数据，包含深度图、相机位姿和栅格化的语义掩码。

关联资源

论文: https://arxiv.org/abs/2603.08096
代码: https://github.com/bryceag11/triangulang
模型检查点: https://huggingface.co/bag100/triangulang

数据内容与结构

目录	大小	描述
`da3_nested_cache_1008/`	345 GB	分辨率为1008px的DA3-NESTED深度图与相机位姿（319个场景，训练集+验证集）
`da3_nested_cache_1008_val_allframes/`	79 GB	验证集所有帧的DA3-NESTED深度图与相机位姿，分辨率为1008px（55个场景）
`semantics_2d_train/`	932 GB	从ScanNet++网格栅格化的逐像素语义掩码（263个训练场景）
`semantics_2d_val_v2/`	240 GB	从ScanNet++网格栅格化的逐像素语义掩码（51个验证场景）

DA3-NESTED缓存数据格式

每个 .pt 文件包含一个字典，结构如下： python { depth: Tensor[H, W], # float16，以米为单位的度量深度 extrinsics: Tensor[4, 4], # float32，相机到世界坐标系变换矩阵 (c2w) intrinsics: Tensor[3, 3], # float32，相机内参矩阵 depth_conf: Tensor[H, W], # float16，深度置信度 (>= 1.0) proc_hw: (int, int), # 经过宽高比调整后的处理分辨率 }

该数据使用 Depth Anything V3 (DA3-NESTED-GIANT-LARGE) 生成，并采用重叠分块与Sim(3)对齐以确保全局一致的位姿。

语义掩码数据格式

语义掩码是从ScanNet++ 3D网格标注投影到DSLR图像上生成的逐像素实例掩码。每个 .pth 文件是一个numpy int32数组，像素值为物体实例ID。文件路径示例：

semantics_2d_train/{scene_id}/{frame}.JPG.pth
semantics_2d_val_v2/{scene_id}/{frame}.JPG.pth

使用要求

使用本数据集仍需原始的ScanNet++数据集以获取RGB图像、相机内参和场景元数据。需在 https://kaldir.vc.in.tum.de/scannetpp/ 申请访问权限。使用ScanNet++底层数据需同意其使用条款。

引用

如需使用本数据集，请引用以下文献： bibtex @article{grant2026triangulang, title={TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization}, author={Grant, Bryce and Rothenberg, Aryeh and Banerjee, Atri and Wang, Peng}, journal={arXiv preprint arXiv:2603.08096}, year={2026} } @inproceedings{yeshwanth2023scannetpp, title={ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes}, author={Yeshwanth, Chandan and Liu, Yu-Chian and Nie{ss}ner, Matthias and Dai, Angela}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, year={2023} } @article{depth_anything_v3, title={Depth Anything V3}, author={Yang, Bingyi and Deng, Jiahao and Chen, Peijin and Luo, Kunhao and Wang, Peng and Chen, Dongsheng and Yang, Zhen and Chen, Hao and Zhu, Dacheng and Li, Yinqiang and Wang, Zhenda and others}, journal={arXiv preprint arXiv:2503.11211}, year={2025} }

搜集汇总

数据集介绍

构建方式

在三维视觉领域，高质量的数据预处理是推动算法发展的关键。TrianguLang ScanNet++ Preprocessed Data 的构建依托于ScanNet++这一高保真室内场景数据集，通过Depth Anything V3模型生成深度图，并采用重叠分块与Sim(3)对齐技术，确保了深度估计与相机位姿的全局一致性。同时，语义掩码通过将ScanNet++三维网格标注投影至二维图像平面而获得，形成了涵盖深度、位姿及语义信息的结构化缓存。

特点

该数据集的核心特征在于其多模态与高精度的数据组织。它提供了经过预处理的深度图、相机外参、内参矩阵以及深度置信度，并以高效的PyTorch张量格式存储。语义掩码则以实例ID的形式提供了像素级标注。数据规模庞大，深度缓存与语义掩码分别达到数百GB，覆盖了数百个室内场景，为三维场景理解任务提供了丰富且一致的基础数据。

使用方法

使用本数据集需要预先获取原始的ScanNet++数据集以补充RGB图像等元数据。将预处理缓存文件置于指定的目录结构下，即可在训练TrianguLang等模型时通过命令行参数启用缓存加载。具体而言，在训练脚本中指定缓存名称与分辨率，系统将自动读取对应的深度与位姿数据，从而显著加速训练流程并提升几何一致性建模的效果。

背景与挑战

背景概述

Triangulang-Scannetpp-Cache数据集于2026年由Grant等人提出，作为TrianguLang模型在ScanNet++基准上的预训练资源。该数据集依托于慕尼黑工业大学等机构构建的高保真室内三维场景数据集ScanNet++，旨在解决无姿态约束的三维语义定位这一核心研究问题。通过集成Depth Anything V3生成的深度图与相机位姿，以及从三维网格投影得到的像素级语义掩码，该数据集为几何感知的语义一致性研究提供了关键支持，显著推动了室内场景理解与三维重建领域的算法发展。

当前挑战

该数据集致力于应对室内三维场景中无相机姿态条件下的语义定位挑战，其核心在于如何在缺乏精确外部参数的情况下，实现多视角几何与语义信息的高效融合。构建过程中的主要困难源于大规模高分辨率数据的一致化处理，包括利用Depth Anything V3模型生成全局一致的深度图与位姿时所需的复杂Sim(3)对齐，以及将三维网格标注准确投影至二维图像以生成像素级语义掩码所涉及的计算精度与存储开销问题。

常用场景

经典使用场景

在三维视觉与场景理解领域，TrianguLang ScanNet++ Preprocessed Data 为研究者提供了经过深度图、相机位姿和语义掩码预处理的标准化数据，极大地简化了复杂三维重建与语义分割任务的实验流程。该数据集最经典的使用场景是支持 TrianguLang 模型在 ScanNet++ 高保真室内场景数据上的训练与评估，通过预计算的深度信息和语义标注，研究者能够专注于几何感知与语义一致性融合的算法开发，无需耗费大量计算资源进行底层数据预处理。

解决学术问题

该数据集有效解决了三维视觉中多视图几何重建与语义理解融合的若干关键学术问题。通过提供全局一致的深度估计与相机位姿，它助力于克服传统方法在无姿态约束场景下的定位难题，促进了姿态无关三维定位技术的发展。同时，高质量的语义掩码为场景物体实例分割与语义映射提供了坚实基础，推动了室内场景理解模型在几何与语义协同优化方面的研究进展，对提升三维场景解析的精度与鲁棒性具有重要理论意义。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于几何与语义融合的三维视觉经典工作。TrianguLang 模型本身便是其直接产物，提出了几何感知的语义共识框架以解决无姿态三维定位问题。此外，基于其提供的深度与语义缓存，后续研究可在多视图立体匹配、神经辐射场语义注入、以及动态场景理解等方向进行深入探索。这些工作共同推动了利用预计算数据提升三维任务效率与性能的研究范式，形成了从数据预处理到高级场景理解算法的完整技术链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集