LVIS, SUNRGBD, ScanNet

github2024-11-23 更新2024-11-28 收录

下载链接：

https://github.com/yangtiming/ImOV3D

下载链接

链接失效反馈

官方服务：

资源简介：

LVIS数据集用于预训练阶段，SUNRGBD和ScanNet数据集用于适应阶段。这些数据集包含了2D图像和点云数据，用于3D对象检测任务。

The LVIS dataset is used for the pretraining stage, while the SUNRGBD and ScanNet datasets are employed for the adaptation stage. These datasets contain 2D images and point cloud data, and are applied to 3D object detection tasks.

创建时间：

2024-10-30

原始信息汇总

ImOV3D 数据集概述

数据集准备

预训练阶段

详细指导见 dataset instructions。

适应阶段

见 Data Preparation 获取 SUNRGBD 或 ScanNet 数据。
也可从 Baidu 下载数据。

数据格式

--[data_name] # 数据集根目录 ├── [data_name]_2d_bbox_train # 带2D边界框的训练数据 ├── [data_name]_2d_bbox_val # 带2D边界框的验证数据 ├── [data_name]_pc_bbox_votes_train # 带点云边界框投票的训练数据 ├── [data_name]_pc_bbox_votes_val # 带点云边界框投票的验证数据 ├── [data_name]_trainval_train # 训练数据（2D图像+校准） └── [data_name]_trainval_eval # 评估数据（2D图像+校准）

预训练权重

模块	描述
PointCloudRender	微调的 ControlNet

数据集	描述	日志
LVIS	预训练阶段	SUNRGBD, ScanNet
SUNRGBD	适应阶段	SUNRGBD
ScanNet	适应阶段	ScanNet

可从 Baidu 下载。

训练与评估

预训练

在 LVIS 数据集上预训练 ImOV3D： bash bash ./scripts/train_lvis.sh

适应

对于 SUNRGBD 数据集： bash bash ./scripts/train_sunrgbd.sh
对于 ScanNet 数据集： bash bash ./scripts/train_scannet.sh

评估

评估模型效果： bash bash ./scripts/eval.sh

搜集汇总

数据集介绍

构建方式

在构建LVIS、SUNRGBD和ScanNet数据集时，研究团队采用了创新的方法，通过仅依赖2D图像数据来生成3D对象检测所需的点云数据。具体而言，数据集的构建分为预训练阶段和适应阶段。预训练阶段利用LVIS数据集进行模型初始化，而适应阶段则针对SUNRGBD和ScanNet数据集进行微调。每个数据集的根目录下包含训练和验证数据，分别包括2D边界框、点云边界框投票以及2D图像和校准信息。

特点

这些数据集的主要特点在于其开放词汇和仅依赖2D图像的3D对象检测能力。通过这种方式，数据集不仅减少了对于3D地面真实数据的依赖，还显著提升了模型的泛化能力。此外，数据集的结构设计使得训练和验证数据清晰分离，便于进行高效的模型训练和评估。

使用方法

使用这些数据集时，首先需按照提供的指导设置虚拟环境，并安装必要的依赖。随后，用户可以根据需要选择预训练或适应阶段的数据集进行模型训练。训练完成后，可通过提供的评估脚本对模型性能进行量化分析。此外，数据集的下载和预训练权重也可通过指定链接获取，确保了使用的便捷性和高效性。

背景与挑战

背景概述

LVIS、SUNRGBD和ScanNet数据集是由上海期智研究院、清华大学和上海人工智能实验室的研究团队共同创建的，旨在推动开放词汇点云三维物体检测的研究。这些数据集的创建时间可追溯至2024年，主要研究人员包括Timing Yang、Yuanliang Ju和Li Yi。核心研究问题是如何在不使用任何三维真值数据的情况下，实现开放词汇的三维物体检测。这些数据集的推出，极大地推动了计算机视觉领域中三维物体检测技术的发展，尤其是在无需三维标注的情况下进行高效检测的挑战性任务中，展示了其重要的研究价值和应用前景。

当前挑战

这些数据集在构建过程中面临了多重挑战。首先，如何从仅有的二维图像中提取有效的三维信息，是一个技术上的巨大挑战。其次，数据集的标注和处理需要高度的精确性和一致性，以确保训练模型的准确性和可靠性。此外，开放词汇的引入增加了数据集的复杂性，要求模型能够理解和处理多样化的词汇和语义信息。最后，数据集的规模和多样性也是一大挑战，需要确保数据集能够覆盖广泛的应用场景和物体类别，以支持全面的三维物体检测研究。

常用场景

经典使用场景

在计算机视觉领域，LVIS、SUNRGBD和ScanNet数据集被广泛应用于三维物体检测任务。这些数据集通过提供丰富的二维图像和三维点云数据，使得研究人员能够在不依赖三维标注的情况下，训练和验证其三维物体检测模型。例如，ImOV3D项目利用这些数据集进行预训练和适应性训练，以实现开放词汇的三维物体检测，展示了其在无三维真值数据情况下的卓越性能。

解决学术问题

这些数据集解决了三维物体检测中的关键学术问题，特别是在缺乏三维标注数据的情况下如何进行有效的三维物体检测。通过提供高质量的二维图像和三维点云数据，这些数据集使得研究人员能够探索和验证新的算法和模型，从而推动了三维物体检测技术的发展。此外，这些数据集还促进了开放词汇三维物体检测的研究，为未来的智能感知系统提供了重要的技术支持。

衍生相关工作

基于LVIS、SUNRGBD和ScanNet数据集，许多相关的经典工作得以衍生。例如，ImVoteNet项目通过结合二维图像和三维点云数据，提出了一个有效的三维物体检测框架；OV-3DET项目则进一步扩展了开放词汇三维物体检测的概念，探索了更多可能的应用场景。此外，Detic和ControlNet等项目也利用这些数据集进行深度学习模型的训练和验证，推动了三维物体检测技术的不断进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集