OMNI3D

Name: OMNI3D
Creator: Meta AI
Published: 2023-03-24 08:42:18
License: 暂无描述

arXiv2023-03-24 更新2024-06-21 收录

下载链接：

https://github.com/facebookresearch/omni3d

下载链接

链接失效反馈

官方服务：

资源简介：

OMNI3D是一个由Meta AI等机构开发的大规模3D对象检测基准，旨在推动计算机视觉领域对3D场景和对象识别的研究。该数据集整合了多个现有数据集，包括SUN RGB-D、ARKitScenes、Hypersim、Objectron、KITTI和nuScenes，共包含234,000张图像，标注了超过300万个实例和98个类别。OMNI3D的创建过程涉及重新利用原始数据和标注，以形成一个统一的、多样化的基准。该数据集的应用领域广泛，包括机器人学和AR/VR，旨在解决从单一图像中准确检测和定位3D对象的问题。

OMNI3D is a large-scale 3D object detection benchmark developed by Meta AI and other institutions, aiming to advance research on 3D scene and object recognition in the field of computer vision. This dataset integrates multiple existing datasets including SUN RGB-D, ARKitScenes, Hypersim, Objectron, KITTI and nuScenes, with a total of 234,000 images and annotations for over 3 million instances across 98 categories. The development of OMNI3D involves repurposing original data and their corresponding annotations to construct a unified and diverse benchmark. This dataset has broad application scenarios including robotics and AR/VR, and is designed to tackle the challenge of accurately detecting and localizing 3D objects from a single image.

提供机构：

Meta AI

创建时间：

2022-07-22

搜集汇总

数据集介绍

构建方式

在三维物体检测领域，数据集的规模与多样性是推动算法泛化能力的关键。OMNI3D 的构建通过整合多个公开数据集实现，包括 SUN RGB-D、ARKitScenes、Hypersim、Objectron、KITTI 和 nuScenes，涵盖室内、室外及通用场景。构建过程中，研究团队重新处理了原始视觉数据，将不同坐标系的标注统一至相机坐标系，并精心整合了 98 个物体类别的语义标签，最终形成包含 23.4 万张图像、300 万个三维边界框标注的大规模基准。

特点

OMNI3D 的显著特点在于其规模与多样性远超现有三维检测基准。数据集包含 98 个物体类别，覆盖从室内家具到室外车辆的广泛场景，空间分布呈现与二维数据集相似的中心偏置特性，且深度分布更为丰富。其长尾类别分布与二维大规模数据集（如 LVIS）类似，为少样本学习提供了挑战。此外，OMNI3D 在相机内参、物体尺寸、布局和旋转等方面展现出高度方差，突破了传统数据集的领域限制，为通用三维检测模型的设计与评估提供了更接近真实世界的复杂环境。

使用方法

OMNI3D 可作为通用三维检测数据集直接用于模型训练与评估，支持跨域泛化研究。其大规模特性使其适用于预训练任务，能够显著提升在小规模目标数据集上的微调效率，加速低样本学习。数据集中提供的统一三维标注格式与相机参数，便于研究者开发不依赖于特定领域假设的检测算法。此外，数据集附带的快速三维 IoU 计算算法大幅提升了评估效率，使其能够支持大规模实验验证与模型比较。

背景与挑战

背景概述

在计算机视觉领域，从单张图像中识别三维场景与物体是一项长期追求的目标，对机器人技术与增强现实应用具有深远意义。OMNI3D数据集由Meta AI、密歇根州立大学及加州理工学院的研究团队于2023年共同创建，旨在解决现有三维物体检测数据规模小、领域局限的问题。该数据集整合了SUN RGB-D、KITTI、nuScenes等多个公开数据集，涵盖23.4万张图像、超过300万个标注实例与98个物体类别，其规模达到传统基准的20倍以上。通过提供跨室内外场景的多样化数据，OMNI3D推动了三维视觉向通用化与规模化发展，为模型训练与评估奠定了新的基础。

当前挑战

OMNI3D所针对的三维物体检测任务面临多重挑战：在领域层面，模型需克服单目图像中深度估计的固有模糊性，以及不同场景下物体尺寸、姿态与布局的显著差异；同时，长尾分布的物体类别要求算法具备少样本识别能力。在数据集构建过程中，研究者需整合多源异构数据，这些数据在相机内参、坐标系及标注标准上存在不一致性，导致统一处理与语义对齐极为复杂。此外，大规模三维边界框的交并比计算效率低下，传统方法难以满足高效评估需求，需设计快速精确的算法以支撑实际应用。

常用场景

经典使用场景

在三维视觉研究领域，OMNI3D数据集常被用作评估单目图像三维目标检测算法的基准平台。其经典应用场景体现在模型泛化能力的验证上，研究者通过在该数据集上训练统一模型，能够同时处理室内外多种场景下的三维目标定位任务。例如，Cube R-CNN等先进方法利用OMNI3D的跨域特性，在保持单一架构的前提下，对城市道路中的车辆与室内环境中的家具进行同步检测，突破了传统方法对场景类型的依赖。

实际应用

在实际应用层面，OMNI3D数据集为增强现实与机器人导航系统提供了重要的训练基础。基于该数据集训练的模型能够直接部署于移动设备摄像头，实时估计场景中物体的三维边界框与姿态信息。例如，在室内导航机器人中，系统可通过单目图像识别桌椅的三维位置，规划避障路径；在AR应用中，虚拟物体可根据检测到的真实物体三维结构进行精准叠加。数据集包含的ARKitScenes等移动端采集数据，更确保了模型对消费级设备成像特性的适应性。

衍生相关工作

OMNI3D的发布催生了一系列围绕大规模三维感知的研究工作。其衍生的Cube R-CNN模型提出了虚拟深度变换机制，有效解决了多源数据中相机焦距差异导致的尺度-深度歧义问题。后续研究在此基础上进一步探索了跨域自适应、少样本三维检测等方向。同时，数据集整合过程中提出的快速三维交并比算法，将计算效率提升450倍，为大规模三维评估提供了基础设施。这些工作共同推动了三维目标检测从领域专用向通用化框架的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集