ScanNet
收藏TSP3D 数据集概述
数据集简介
TSP3D(Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding)是一个用于3D视觉定位的官方PyTorch实现,对应论文《Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding》。
作者信息
- Wenxuan Guo
- Xiuwei Xu
- Ziwei Wang
- Jianjiang Feng
- Jie Zhou
- Jiwen Lu
方法简介
TSP3D提出了一种高效的分层卷积架构,用于3D视觉定位,相比之前的 approaches,在推理速度和准确性上都有显著提升。
数据准备
- ScanNet:需要下载并打包成
train_v3scans.pkl和val_v3scans.pkl。 - ScanRefer:需要下载并解压到指定目录。
- ReferIt3D:需要下载并解压到指定目录。
- roberta-base:下载预训练语言模型。
数据结构
├── [DATA_ROOT] │ ├── [1] train_v3scans.pkl │ ├── [2] val_v3scans.pkl │ ├── [3] ScanRefer/ │ │ ├── ScanRefer_filtered_train.json │ │ ├── ScanRefer_filtered_val.json │ │ └── ... │ ├── [4] ReferIt3D/ │ │ ├── nr3d.csv │ │ ├── sr3d.csv │ │ └── ... │ ├── [5] roberta-base/ │ └── [6] checkpoints/
主要结果
- ScanRefer数据集上的结果:
- 单阶段:Acc@0.25 = 56.45, Acc@0.5 = 46.71, 推理速度(FPS)= 12.43
- Nr3d和Sr3d数据集上的结果也提供了相应的指标。
引用
@article{guo2025tsp3d, title={Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding}, author={Wenxuan Guo and Xiuwei Xu and Ziwei Wang and Jianjiang Feng and Jie Zhou and Jiwen Lu}, journal={arXiv preprint arXiv:2502.10392}, year={2025} }




