five

ScanNet|三维视觉数据集|室内场景重建数据集

收藏
github2025-03-01 更新2025-03-02 收录
三维视觉
室内场景重建
下载链接:
https://github.com/GWxuan/TSP3D
下载链接
链接失效反馈
资源简介:
ScanNet是一个包含数千个室内场景的三维点云数据集,用于三维视觉研究。
创建时间:
2025-02-14
原始信息汇总

TSP3D 数据集概述

数据集简介

TSP3D(Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding)是一个用于3D视觉定位的官方PyTorch实现,对应论文《Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding》。

作者信息

  • Wenxuan Guo
  • Xiuwei Xu
  • Ziwei Wang
  • Jianjiang Feng
  • Jie Zhou
  • Jiwen Lu

方法简介

TSP3D提出了一种高效的分层卷积架构,用于3D视觉定位,相比之前的 approaches,在推理速度和准确性上都有显著提升。

数据准备

  • ScanNet:需要下载并打包成train_v3scans.pklval_v3scans.pkl
  • ScanRefer:需要下载并解压到指定目录。
  • ReferIt3D:需要下载并解压到指定目录。
  • roberta-base:下载预训练语言模型。

数据结构

├── [DATA_ROOT] │ ├── [1] train_v3scans.pkl │ ├── [2] val_v3scans.pkl │ ├── [3] ScanRefer/ │ │ ├── ScanRefer_filtered_train.json │ │ ├── ScanRefer_filtered_val.json │ │ └── ... │ ├── [4] ReferIt3D/ │ │ ├── nr3d.csv │ │ ├── sr3d.csv │ │ └── ... │ ├── [5] roberta-base/ │ └── [6] checkpoints/

主要结果

  • ScanRefer数据集上的结果:
    • 单阶段:Acc@0.25 = 56.45, Acc@0.5 = 46.71, 推理速度(FPS)= 12.43
  • Nr3d和Sr3d数据集上的结果也提供了相应的指标。

引用

@article{guo2025tsp3d, title={Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding}, author={Wenxuan Guo and Xiuwei Xu and Ziwei Wang and Jianjiang Feng and Jie Zhou and Jiwen Lu}, journal={arXiv preprint arXiv:2502.10392}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ScanNet数据集的构建依托于ScanNet v2数据,通过下载并打包特定格式的点云数据文件,辅以ScanRefer和ReferIt3D等注释数据,以及预训练的语言模型,形成了适用于3D视觉定位任务的数据集。具体而言,数据集的构建包括从ScanNet官网申请数据权限,下载点云数据和相关文件,然后使用Pack_scan_files.py脚本打包成.pkl格式的训练和验证数据集,最后整合ScanRefer和ReferIt3D的注释数据以供训练使用。
特点
ScanNet数据集的特点在于其包含了丰富的室内场景点云数据,配合ScanRefer和ReferIt3D提供的自然语言描述,能够支持3D视觉定位任务中的高效训练与评估。该数据集不仅提供了精细的点云数据,还包含了对应的语义标签和区域分割信息,以及用于文本引导的稀疏体素剪枝的预训练模型,为3D视觉定位研究提供了全面的数据支持。
使用方法
使用ScanNet数据集首先需要准备相应的环境和依赖库,包括PyTorch、spacy、mmdetection3d和MinkowskiEngine等。数据准备阶段,用户需下载ScanNet v2数据,打包成.pkl文件,并下载ScanRefer和ReferIt3D的注释数据。训练阶段,用户可以指定数据集路径和日志目录,通过运行相应的训练脚本进行模型训练。评估阶段,用户同样需要指定相关路径,并通过执行评估脚本来测试模型的性能。
背景与挑战
背景概述
ScanNet数据集是三维视觉领域的一个重要资源,由清华大学知识工程实验室的研究团队创建于2025年。该数据集旨在推进三维视觉定位任务的研究,特别是通过文本指导的三维视觉定位。该数据集的主要研究人员包括Wenxuan Guo、Xiuwei Xu、Ziwei Wang等,他们在三维视觉定位领域有着深入的研究。ScanNet数据集的核心研究问题是提高三维视觉定位的效率和准确性,对相关领域的研究产生了显著影响。
当前挑战
ScanNet数据集在构建过程中遇到的挑战主要包括:1) 如何高效地从大规模的三维空间数据中提取有效信息;2) 如何准确地实现文本信息与三维空间定位的融合。在所解决的领域问题上,ScanNet数据集面临的挑战是:如何在不同场景下,通过文本指导,实现快速准确的三维视觉定位。
常用场景
经典使用场景
ScanNet数据集在三维视觉领域中,主要用于3D视觉定位的研究。该数据集通过提供丰富的场景点云和对应的标注信息,使得研究者能够在此之上开展基于文本引导的三维视觉定位任务,如识别和定位场景中的物体。
解决学术问题
ScanNet数据集解决了三维视觉定位中的准确性及实时性问题。通过文本引导的稀疏体素剪枝方法,该数据集在保持定位精度的同时,显著提高了推理速度,为实时三维视觉定位提供了可能。
衍生相关工作
基于ScanNet数据集,衍生出了一系列相关工作,如DSPDet3D、BUTD-DETR、EDA等,这些研究进一步扩展了ScanNet数据集的应用范围,推动了三维视觉定位技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。

huggingface 收录

中国近海地形数据集(渤海,黄海,东海,南海)

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

CODrone

CODrone 是一个为无人机设计的全面定向目标检测数据集,它准确反映了真实世界条件。该数据集包含来自多个城市在不同光照条件下的广泛标注图像,增强了基准的逼真度。CODrone 包含超过 10,000 张高分辨率图像,捕获自五个城市的真实无人机飞行,涵盖了各种城市和工业环境,包括港口和码头。为了提高鲁棒性和泛化能力,它包括在正常光线、低光和夜间条件下相同场景的图像。我们采用了三种飞行高度和两种常用的相机角度,从而产生了六个不同的视角配置。所有图像都针对 12 个常见对象类别进行了定向边界框标注,总计超过 590,000 个标记实例。总体而言,这项工作构建了一个综合数据集和基准,用于城市无人机场景中的定向目标检测,旨在满足该领域的研究和实践应用需求。

arXiv 收录

M4-SAR

M4-SAR是一个多分辨率、多极化、多场景、多源数据集,用于光学与合成孔径雷达(SAR)融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建,包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别,并使用公开的光学和SAR数据,包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战,该研究提出了一种半监督的光学辅助标注策略,利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性,为多源融合目标检测任务提供大规模、高质量、标准化的数据集,并推动相关研究的发展。

arXiv 收录