ScanNet

github2025-03-01 更新2025-03-02 收录

下载链接：

https://github.com/GWxuan/TSP3D

下载链接

链接失效反馈

官方服务：

资源简介：

ScanNet是一个包含数千个室内场景的三维点云数据集，用于三维视觉研究。

ScanNet is a 3D point cloud dataset containing thousands of indoor scenes, dedicated to 3D vision research.

创建时间：

2025-02-14

原始信息汇总

TSP3D 数据集概述

数据集简介

TSP3D（Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding）是一个用于3D视觉定位的官方PyTorch实现，对应论文《Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding》。

作者信息

Wenxuan Guo
Xiuwei Xu
Ziwei Wang
Jianjiang Feng
Jie Zhou
Jiwen Lu

方法简介

TSP3D提出了一种高效的分层卷积架构，用于3D视觉定位，相比之前的 approaches，在推理速度和准确性上都有显著提升。

数据准备

ScanNet：需要下载并打包成train_v3scans.pkl和val_v3scans.pkl。
ScanRefer：需要下载并解压到指定目录。
ReferIt3D：需要下载并解压到指定目录。
roberta-base：下载预训练语言模型。

数据结构

├── [DATA_ROOT] │ ├── [1] train_v3scans.pkl │ ├── [2] val_v3scans.pkl │ ├── [3] ScanRefer/ │ │ ├── ScanRefer_filtered_train.json │ │ ├── ScanRefer_filtered_val.json │ │ └── ... │ ├── [4] ReferIt3D/ │ │ ├── nr3d.csv │ │ ├── sr3d.csv │ │ └── ... │ ├── [5] roberta-base/ │ └── [6] checkpoints/

主要结果

ScanRefer数据集上的结果：
- 单阶段：Acc@0.25 = 56.45, Acc@0.5 = 46.71, 推理速度（FPS）= 12.43
Nr3d和Sr3d数据集上的结果也提供了相应的指标。

引用

@article{guo2025tsp3d, title={Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding}, author={Wenxuan Guo and Xiuwei Xu and Ziwei Wang and Jianjiang Feng and Jie Zhou and Jiwen Lu}, journal={arXiv preprint arXiv:2502.10392}, year={2025} }

搜集汇总

数据集介绍

构建方式

ScanNet数据集的构建依托于ScanNet v2数据，通过下载并打包特定格式的点云数据文件，辅以ScanRefer和ReferIt3D等注释数据，以及预训练的语言模型，形成了适用于3D视觉定位任务的数据集。具体而言，数据集的构建包括从ScanNet官网申请数据权限，下载点云数据和相关文件，然后使用Pack_scan_files.py脚本打包成.pkl格式的训练和验证数据集，最后整合ScanRefer和ReferIt3D的注释数据以供训练使用。

特点

ScanNet数据集的特点在于其包含了丰富的室内场景点云数据，配合ScanRefer和ReferIt3D提供的自然语言描述，能够支持3D视觉定位任务中的高效训练与评估。该数据集不仅提供了精细的点云数据，还包含了对应的语义标签和区域分割信息，以及用于文本引导的稀疏体素剪枝的预训练模型，为3D视觉定位研究提供了全面的数据支持。

使用方法

使用ScanNet数据集首先需要准备相应的环境和依赖库，包括PyTorch、spacy、mmdetection3d和MinkowskiEngine等。数据准备阶段，用户需下载ScanNet v2数据，打包成.pkl文件，并下载ScanRefer和ReferIt3D的注释数据。训练阶段，用户可以指定数据集路径和日志目录，通过运行相应的训练脚本进行模型训练。评估阶段，用户同样需要指定相关路径，并通过执行评估脚本来测试模型的性能。

背景与挑战

背景概述

ScanNet数据集是三维视觉领域的一个重要资源，由清华大学知识工程实验室的研究团队创建于2025年。该数据集旨在推进三维视觉定位任务的研究，特别是通过文本指导的三维视觉定位。该数据集的主要研究人员包括Wenxuan Guo、Xiuwei Xu、Ziwei Wang等，他们在三维视觉定位领域有着深入的研究。ScanNet数据集的核心研究问题是提高三维视觉定位的效率和准确性，对相关领域的研究产生了显著影响。

当前挑战

ScanNet数据集在构建过程中遇到的挑战主要包括：1) 如何高效地从大规模的三维空间数据中提取有效信息；2) 如何准确地实现文本信息与三维空间定位的融合。在所解决的领域问题上，ScanNet数据集面临的挑战是：如何在不同场景下，通过文本指导，实现快速准确的三维视觉定位。

常用场景

经典使用场景

ScanNet数据集在三维视觉领域中，主要用于3D视觉定位的研究。该数据集通过提供丰富的场景点云和对应的标注信息，使得研究者能够在此之上开展基于文本引导的三维视觉定位任务，如识别和定位场景中的物体。

解决学术问题

ScanNet数据集解决了三维视觉定位中的准确性及实时性问题。通过文本引导的稀疏体素剪枝方法，该数据集在保持定位精度的同时，显著提高了推理速度，为实时三维视觉定位提供了可能。

衍生相关工作

基于ScanNet数据集，衍生出了一系列相关工作，如DSPDet3D、BUTD-DETR、EDA等，这些研究进一步扩展了ScanNet数据集的应用范围，推动了三维视觉定位技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集