five

ScanNet

收藏
github2025-03-01 更新2025-03-02 收录
下载链接:
https://github.com/GWxuan/TSP3D
下载链接
链接失效反馈
官方服务:
资源简介:
ScanNet是一个包含数千个室内场景的三维点云数据集,用于三维视觉研究。

ScanNet is a 3D point cloud dataset containing thousands of indoor scenes, dedicated to 3D vision research.
创建时间:
2025-02-14
原始信息汇总

TSP3D 数据集概述

数据集简介

TSP3D(Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding)是一个用于3D视觉定位的官方PyTorch实现,对应论文《Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding》。

作者信息

  • Wenxuan Guo
  • Xiuwei Xu
  • Ziwei Wang
  • Jianjiang Feng
  • Jie Zhou
  • Jiwen Lu

方法简介

TSP3D提出了一种高效的分层卷积架构,用于3D视觉定位,相比之前的 approaches,在推理速度和准确性上都有显著提升。

数据准备

  • ScanNet:需要下载并打包成train_v3scans.pklval_v3scans.pkl
  • ScanRefer:需要下载并解压到指定目录。
  • ReferIt3D:需要下载并解压到指定目录。
  • roberta-base:下载预训练语言模型。

数据结构

├── [DATA_ROOT] │ ├── [1] train_v3scans.pkl │ ├── [2] val_v3scans.pkl │ ├── [3] ScanRefer/ │ │ ├── ScanRefer_filtered_train.json │ │ ├── ScanRefer_filtered_val.json │ │ └── ... │ ├── [4] ReferIt3D/ │ │ ├── nr3d.csv │ │ ├── sr3d.csv │ │ └── ... │ ├── [5] roberta-base/ │ └── [6] checkpoints/

主要结果

  • ScanRefer数据集上的结果:
    • 单阶段:Acc@0.25 = 56.45, Acc@0.5 = 46.71, 推理速度(FPS)= 12.43
  • Nr3d和Sr3d数据集上的结果也提供了相应的指标。

引用

@article{guo2025tsp3d, title={Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding}, author={Wenxuan Guo and Xiuwei Xu and Ziwei Wang and Jianjiang Feng and Jie Zhou and Jiwen Lu}, journal={arXiv preprint arXiv:2502.10392}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
ScanNet数据集的构建依托于ScanNet v2数据,通过下载并打包特定格式的点云数据文件,辅以ScanRefer和ReferIt3D等注释数据,以及预训练的语言模型,形成了适用于3D视觉定位任务的数据集。具体而言,数据集的构建包括从ScanNet官网申请数据权限,下载点云数据和相关文件,然后使用Pack_scan_files.py脚本打包成.pkl格式的训练和验证数据集,最后整合ScanRefer和ReferIt3D的注释数据以供训练使用。
特点
ScanNet数据集的特点在于其包含了丰富的室内场景点云数据,配合ScanRefer和ReferIt3D提供的自然语言描述,能够支持3D视觉定位任务中的高效训练与评估。该数据集不仅提供了精细的点云数据,还包含了对应的语义标签和区域分割信息,以及用于文本引导的稀疏体素剪枝的预训练模型,为3D视觉定位研究提供了全面的数据支持。
使用方法
使用ScanNet数据集首先需要准备相应的环境和依赖库,包括PyTorch、spacy、mmdetection3d和MinkowskiEngine等。数据准备阶段,用户需下载ScanNet v2数据,打包成.pkl文件,并下载ScanRefer和ReferIt3D的注释数据。训练阶段,用户可以指定数据集路径和日志目录,通过运行相应的训练脚本进行模型训练。评估阶段,用户同样需要指定相关路径,并通过执行评估脚本来测试模型的性能。
背景与挑战
背景概述
ScanNet数据集是三维视觉领域的一个重要资源,由清华大学知识工程实验室的研究团队创建于2025年。该数据集旨在推进三维视觉定位任务的研究,特别是通过文本指导的三维视觉定位。该数据集的主要研究人员包括Wenxuan Guo、Xiuwei Xu、Ziwei Wang等,他们在三维视觉定位领域有着深入的研究。ScanNet数据集的核心研究问题是提高三维视觉定位的效率和准确性,对相关领域的研究产生了显著影响。
当前挑战
ScanNet数据集在构建过程中遇到的挑战主要包括:1) 如何高效地从大规模的三维空间数据中提取有效信息;2) 如何准确地实现文本信息与三维空间定位的融合。在所解决的领域问题上,ScanNet数据集面临的挑战是:如何在不同场景下,通过文本指导,实现快速准确的三维视觉定位。
常用场景
经典使用场景
ScanNet数据集在三维视觉领域中,主要用于3D视觉定位的研究。该数据集通过提供丰富的场景点云和对应的标注信息,使得研究者能够在此之上开展基于文本引导的三维视觉定位任务,如识别和定位场景中的物体。
解决学术问题
ScanNet数据集解决了三维视觉定位中的准确性及实时性问题。通过文本引导的稀疏体素剪枝方法,该数据集在保持定位精度的同时,显著提高了推理速度,为实时三维视觉定位提供了可能。
衍生相关工作
基于ScanNet数据集,衍生出了一系列相关工作,如DSPDet3D、BUTD-DETR、EDA等,这些研究进一步扩展了ScanNet数据集的应用范围,推动了三维视觉定位技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作