ScanNet++

Name: ScanNet++
Creator: 慕尼黑工业大学
Published: 2023-08-22 21:02:23
License: 暂无描述

arXiv2023-08-22 更新2024-06-21 收录

下载链接：

https://cy94.github.io/scannetpp/

下载链接

链接失效反馈

官方服务：

资源简介：

ScanNet++是一个大规模的高保真室内场景数据集，包含460个高分辨率的3D重建场景，每个场景都有密集的语义和实例标注，以及相应的高质量DSLR图像和iPhone RGB-D序列。数据集通过高端激光扫描器以亚毫米级分辨率捕捉每个场景，同时使用3300万像素的DSLR相机和iPhone进行颜色捕捉。此外，场景重建还通过开放词汇进行语义标注，明确标注了语义模糊的场景，以实现全面的语义理解。ScanNet++支持新颖视图合成和3D语义场景理解的新基准，使评估能够针对以前不可用的精确真实世界地面实况进行。

ScanNet++ is a large-scale high-fidelity indoor scene dataset that comprises 460 high-resolution 3D reconstructed scenes. Each scene features dense semantic and instance annotations, paired with corresponding high-quality DSLR images and iPhone RGB-D sequences. The dataset captures every scene using high-end laser scanners at sub-millimeter resolution, and employs 33-megapixel DSLR cameras and iPhones for color data acquisition. Furthermore, scene reconstructions are annotated with open-vocabulary semantics, and semantically ambiguous scenes are explicitly labeled to facilitate comprehensive semantic understanding. ScanNet++ supports novel benchmarks for novel view synthesis and 3D semantic scene understanding, enabling evaluations against previously inaccessible precise real-world ground truth.

提供机构：

慕尼黑工业大学

创建时间：

2023-08-22

搜集汇总

数据集介绍

构建方式

ScanNet++数据集的构建采用多传感器数据采集方式，结合高精度激光扫描仪、高分辨率单反相机以及iPhone RGB-D视频，实现了室内场景的高保真度三维重建。首先，使用Faro Focus Premium激光扫描仪以亚毫米级的精度对每个场景进行扫描，获取约4000万个点云数据。其次，使用Sony Alpha 7IV单反相机拍摄高分辨率的静态图像，平均每个场景拍摄约200张，并额外拍摄15-25张独立于扫描轨迹的图像用于新型视图合成的评估。此外，利用iPhone 13Pro的RGB和LiDAR深度流视频，以默认设置记录场景数据。所有传感器模态的数据通过COLMAP进行配准，确保几何和颜色模态之间以及高端和商品级数据采集之间的无缝交互。最后，在3D网络界面中，对场景的语义实例进行标注，每个场景平均标注时间约为1小时。

使用方法

ScanNet++数据集可用于以下任务：1）新型视图合成：数据集提供了从高分辨率单反图像和商品级iPhone图像进行新型视图合成的基准，并支持对现有方法的评估和改进。2）三维语义场景理解：数据集的密集语义标注和开放词汇标签支持对三维语义和实例分割方法的训练和评估，有助于提高对室内场景的精细理解。3）多模态学习：配准后的多模态数据允许对语义进行多模态学习，并使用语义先验进行新型视图合成。4）数据增强：数据集的大规模和多样性为数据增强提供了丰富的资源，有助于提高模型的泛化能力。

背景与挑战

背景概述

ScanNet++ 数据集由慕尼黑工业大学的研究人员 Chandan Yeshwanth, Yueh-Cheng Liu, Matthias Nießner 和 Angela Dai 于 2023 年 8 月提出。该数据集旨在为室内场景的三维重建和理解提供一个新的基准，并推动新型视图合成方法的发展。ScanNet++ 包含 460 个高分辨率的三维室内场景重建，每个场景都配备了来自 DSLR 相机的注册 33 兆像素图像和来自 iPhone 的 RGB-D 序列。场景重建还带有开放词汇的语义标注，其中明确标注了标签模糊的场景，以便全面理解语义。ScanNet++ 为从高质量 RGB 捕获以及商品级图像的新型视图合成方法提供了新的现实世界基准，以及一个新的基准，用于全面涵盖多样化和模糊的语义标注场景的三维语义场景理解。

当前挑战

ScanNet++ 数据集面临的挑战包括：1) 从高质量 DSLR 和商品级 iPhone 图像中优化和基准测试新型视图合成；2) 处理场景中的小物体和强视图相关效应；3) 处理商品级数据的运动模糊和噪声姿态；4) 在保持高分辨率和高质量的同时，扩大数据集的规模。ScanNet++ 数据集为室内场景的三维重建和理解提供了新的基准，并为新型视图合成方法的发展提供了挑战。

常用场景

经典使用场景

ScanNet++ 数据集在室内场景的3D重建和语义理解方面具有广泛的应用。其高精度的3D重建和丰富的语义标注使其成为研究新视图合成和3D场景理解的理想数据集。新视图合成任务要求模型根据一组训练图像和未见的相机姿态生成新的视图，而ScanNet++数据集提供了高质量的DSLR图像和iPhone RGB-D视频，为模型提供了丰富的训练和测试数据。3D场景理解任务则要求模型对室内场景进行语义分割和实例分割，ScanNet++数据集的密集语义标注和多标签标注为模型提供了全面的训练数据，有助于提高模型的准确性和鲁棒性。

解决学术问题

ScanNet++ 数据集解决了室内场景3D重建和语义理解方面的多个学术研究问题。首先，ScanNet++ 数据集提供了高精度的3D重建和高质量的RGB图像，为研究新视图合成提供了更真实的场景和更丰富的细节。其次，ScanNet++ 数据集的密集语义标注和多标签标注为研究3D场景理解提供了更全面和细致的数据，有助于提高模型的准确性和鲁棒性。此外，ScanNet++ 数据集还提供了iPhone RGB-D视频，为研究基于消费级传感器的新视图合成提供了更真实和更具挑战性的场景。

实际应用

ScanNet++ 数据集在实际应用中具有广泛的应用前景。例如，在机器人、自动驾驶、混合现实和内容创作等领域，ScanNet++ 数据集可以用于训练和评估模型的3D重建和语义理解能力，从而提高模型的准确性和鲁棒性。此外，ScanNet++ 数据集还可以用于研究新视图合成，为虚拟现实和增强现实等领域提供更真实和更具沉浸感的场景。因此，ScanNet++ 数据集在实际应用中具有重要的意义和价值。

数据集最近研究