five

ScanNet|三维视觉数据集|室内场景重建数据集

收藏
github2025-03-01 更新2025-03-02 收录
三维视觉
室内场景重建
下载链接:
https://github.com/GWxuan/TSP3D
下载链接
链接失效反馈
资源简介:
ScanNet是一个包含数千个室内场景的三维点云数据集,用于三维视觉研究。
创建时间:
2025-02-14
原始信息汇总

TSP3D 数据集概述

数据集简介

TSP3D(Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding)是一个用于3D视觉定位的官方PyTorch实现,对应论文《Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding》。

作者信息

  • Wenxuan Guo
  • Xiuwei Xu
  • Ziwei Wang
  • Jianjiang Feng
  • Jie Zhou
  • Jiwen Lu

方法简介

TSP3D提出了一种高效的分层卷积架构,用于3D视觉定位,相比之前的 approaches,在推理速度和准确性上都有显著提升。

数据准备

  • ScanNet:需要下载并打包成train_v3scans.pklval_v3scans.pkl
  • ScanRefer:需要下载并解压到指定目录。
  • ReferIt3D:需要下载并解压到指定目录。
  • roberta-base:下载预训练语言模型。

数据结构

├── [DATA_ROOT] │ ├── [1] train_v3scans.pkl │ ├── [2] val_v3scans.pkl │ ├── [3] ScanRefer/ │ │ ├── ScanRefer_filtered_train.json │ │ ├── ScanRefer_filtered_val.json │ │ └── ... │ ├── [4] ReferIt3D/ │ │ ├── nr3d.csv │ │ ├── sr3d.csv │ │ └── ... │ ├── [5] roberta-base/ │ └── [6] checkpoints/

主要结果

  • ScanRefer数据集上的结果:
    • 单阶段:Acc@0.25 = 56.45, Acc@0.5 = 46.71, 推理速度(FPS)= 12.43
  • Nr3d和Sr3d数据集上的结果也提供了相应的指标。

引用

@article{guo2025tsp3d, title={Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding}, author={Wenxuan Guo and Xiuwei Xu and Ziwei Wang and Jianjiang Feng and Jie Zhou and Jiwen Lu}, journal={arXiv preprint arXiv:2502.10392}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ScanNet数据集的构建依托于ScanNet v2数据,通过下载并打包特定格式的点云数据文件,辅以ScanRefer和ReferIt3D等注释数据,以及预训练的语言模型,形成了适用于3D视觉定位任务的数据集。具体而言,数据集的构建包括从ScanNet官网申请数据权限,下载点云数据和相关文件,然后使用Pack_scan_files.py脚本打包成.pkl格式的训练和验证数据集,最后整合ScanRefer和ReferIt3D的注释数据以供训练使用。
特点
ScanNet数据集的特点在于其包含了丰富的室内场景点云数据,配合ScanRefer和ReferIt3D提供的自然语言描述,能够支持3D视觉定位任务中的高效训练与评估。该数据集不仅提供了精细的点云数据,还包含了对应的语义标签和区域分割信息,以及用于文本引导的稀疏体素剪枝的预训练模型,为3D视觉定位研究提供了全面的数据支持。
使用方法
使用ScanNet数据集首先需要准备相应的环境和依赖库,包括PyTorch、spacy、mmdetection3d和MinkowskiEngine等。数据准备阶段,用户需下载ScanNet v2数据,打包成.pkl文件,并下载ScanRefer和ReferIt3D的注释数据。训练阶段,用户可以指定数据集路径和日志目录,通过运行相应的训练脚本进行模型训练。评估阶段,用户同样需要指定相关路径,并通过执行评估脚本来测试模型的性能。
背景与挑战
背景概述
ScanNet数据集是三维视觉领域的一个重要资源,由清华大学知识工程实验室的研究团队创建于2025年。该数据集旨在推进三维视觉定位任务的研究,特别是通过文本指导的三维视觉定位。该数据集的主要研究人员包括Wenxuan Guo、Xiuwei Xu、Ziwei Wang等,他们在三维视觉定位领域有着深入的研究。ScanNet数据集的核心研究问题是提高三维视觉定位的效率和准确性,对相关领域的研究产生了显著影响。
当前挑战
ScanNet数据集在构建过程中遇到的挑战主要包括:1) 如何高效地从大规模的三维空间数据中提取有效信息;2) 如何准确地实现文本信息与三维空间定位的融合。在所解决的领域问题上,ScanNet数据集面临的挑战是:如何在不同场景下,通过文本指导,实现快速准确的三维视觉定位。
常用场景
经典使用场景
ScanNet数据集在三维视觉领域中,主要用于3D视觉定位的研究。该数据集通过提供丰富的场景点云和对应的标注信息,使得研究者能够在此之上开展基于文本引导的三维视觉定位任务,如识别和定位场景中的物体。
解决学术问题
ScanNet数据集解决了三维视觉定位中的准确性及实时性问题。通过文本引导的稀疏体素剪枝方法,该数据集在保持定位精度的同时,显著提高了推理速度,为实时三维视觉定位提供了可能。
衍生相关工作
基于ScanNet数据集,衍生出了一系列相关工作,如DSPDet3D、BUTD-DETR、EDA等,这些研究进一步扩展了ScanNet数据集的应用范围,推动了三维视觉定位技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录