OmniNOCS

Name: OmniNOCS
Creator: 谷歌研究†
Published: 2024-07-12 01:49:05
License: 暂无描述

arXiv2024-07-12 更新2024-07-14 收录

下载链接：

https://omninocs.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

OmniNOCS是由谷歌研究和佐治亚理工学院共同创建的一个大规模单目数据集，专注于3D标准化对象坐标空间（NOCS）图、对象掩码和3D边界框注释，适用于室内外场景。该数据集包含380k张图像，覆盖97个对象类别，远超现有NOCS数据集的多样性和规模。数据集的创建过程包括对多个来源的数据进行深度和实例分割的增强，以及对象方向的标准化。OmniNOCS主要应用于3D场景理解，如机器人抓取和自动驾驶车辆对周围物体的定位和形状识别。

OmniNOCS is a large-scale monocular dataset co-developed by Google Research and Georgia Institute of Technology, focusing on 3D normalized object coordinate space (NOCS) maps, object masks and 3D bounding box annotations, and designed for both indoor and outdoor scenarios. This dataset contains 380,000 images spanning 97 object categories, which far exceeds the diversity and scale of existing NOCS datasets. The dataset creation process involves enhancing multi-source data with depth and instance segmentations, and standardizing object orientations. OmniNOCS is primarily utilized for 3D scene understanding tasks, such as robotic grasping, as well as surrounding object localization and shape recognition for autonomous vehicles.

提供机构：

谷歌研究†

创建时间：

2024-07-12

原始信息汇总

OmniNOCS 数据集概述

数据集简介

OmniNOCS 是一个统一的大规模单目数据集，包含室内和室外场景的3D Normalized Object Coordinate Space (NOCS) 图、对象掩码和3D边界框注释。该数据集拥有超过90个对象类别，是现有NOCS数据集（如NOCS-Real275和Wild6D）的20倍以上的对象类别和200倍以上的实例。

数据集用途

OmniNOCS 数据集用于训练一个新型的基于Transformer的单目NOCS预测模型“NOCSformer”。该模型能够从2D对象检测中预测准确的NOCS、实例掩码和姿态，适用于广泛的类别。

数据集特点

大规模: 包含20倍以上的对象类别和200倍以上的实例。
多样性: 覆盖室内和室外场景，适用于多种应用。
高质量注释: 提供3D NOCS图、对象掩码和3D边界框注释。

数据集链接

数据集下载链接

模型架构

NOCSformer 使用DINOv2主干从输入图像中提取特征，通过输入的2D对象框进行池化，并将每个对象的特征输入到NOCS和大小头部。基于自注意力的NOCS头部联合预测RoI的NOCS和实例掩码。学习的PnP头部用于姿态估计，使用预测的NOCS和实例掩码来预测对象的投影3D质心和3D方向。

数据集应用

OmniNOCS 数据集和NOCSformer模型在3D定向边界框预测任务中取得了与现有3D检测方法（如CubeRCNN）相当的结果。此外，该模型还提供了详细和准确的3D对象形状和分割。

搜集汇总

数据集介绍

构建方式

OmniNOCS数据集的构建方式是通过整合来自不同领域和摄像头的图像数据，包括自动驾驶场景、室内场景和以物体为中心的视频。这些数据来源包括KITTI、nuScenes、ARKitScenes、Objectron、Hypersim、SUN-RGBD、Cityscapes、虚拟KITTI、NOCS-Real275和Waymo开放数据集。为了确保数据集中的物体方向一致性，对每个数据集中的物体进行了方向规范化。此外，对于缺乏深度或实例分割标注的数据集，通过Mip-NeRF重建和分割模型等方法进行了补充。最后，使用深度信息和物体掩码计算了物体的NOCS坐标，并存储为2D地图，从而完成了数据集的构建。

特点

OmniNOCS数据集的特点在于其规模庞大、种类繁多。它包含97个物体类别和超过380k张图像，是现有NOCS数据集中规模最大、种类最多的数据集。此外，OmniNOCS数据集提供了规范化的物体方向、实例分割和3D边界框标注，这些标注对于训练和评估3D物体姿态估计模型至关重要。OmniNOCS数据集还包含真实世界场景和合成场景，以及室内和室外环境，这使得数据集更加多样化，能够适应不同的应用场景。

使用方法

OmniNOCS数据集的使用方法主要是用于训练和评估3D物体姿态估计模型。研究人员可以利用数据集中的NOCS坐标、实例分割和3D边界框标注来训练模型，以便从2D物体检测中预测物体的3D姿态、大小和NOCS。此外，OmniNOCS数据集还提供了一个新的基准，用于比较不同的NOCS预测算法。研究人员可以使用这个基准来评估他们的模型在NOCS预测任务上的性能，并与现有的NOCS预测模型进行比较。

背景与挑战

背景概述

OmniNOCS数据集是由Google Research和乔治亚理工学院的研究人员于2024年7月提出的，旨在解决从二维图像中预测三维物体姿态和形状这一关键问题。该数据集包含室内和室外场景中物体的3D标准化对象坐标空间(NOCS)映射、对象掩码和3D边界框注释。OmniNOCS拥有比现有NOCS数据集(NOCSReal275、Wild6D)多20倍的对象类别和200倍的对象实例，是目前最大的NOCS数据集之一。该数据集的创建为研究人员提供了一个强大的工具，以训练和评估能够从二维检测中预测精确NOCS、实例掩码和姿态的模型，从而促进三维场景理解、机器人抓取和交互、自动驾驶车辆的道路物体行为预测以及增强现实/虚拟现实应用等领域的发展。

当前挑战

OmniNOCS数据集和相关模型NOCSformer面临的主要挑战包括：1)所解决的领域问题的挑战，即如何从二维图像中准确预测三维物体的姿态和形状，这是一个复杂的问题，需要考虑物体的多样性、光照条件、遮挡情况等因素；2)构建过程中所遇到的挑战，例如，为了确保数据集的质量和多样性，研究人员需要对多个来源的数据进行整合和预处理，包括深度估计、实例分割和对象方向规范化等。此外，由于现有模型的性能在处理大规模和多样化数据集时受到限制，因此研究人员需要开发新的模型架构和训练方法，以实现更好的泛化能力和预测精度。

常用场景

经典使用场景

OmniNOCS 数据集主要用于3D场景理解中的物体姿态和形状预测。通过提供2D边界框作为输入，NOCSformer 模型能够预测物体的NOCS、实例掩码和姿态，从而将2D物体提升为其对应的3D方向框和3D点云。这为机器人抓取、自动驾驶车辆的环境感知、AR/VR应用中的物体交互等任务提供了重要的基础。

实际应用

OmniNOCS 数据集在实际应用中具有广泛的前景。例如，在机器人领域，NOCSformer 模型可以帮助机器人理解物体的位置、形状和方向，从而更好地进行抓取和交互。在自动驾驶领域，NOCSformer 模型可以预测车辆、行人等物体的位置和方向，为车辆的安全行驶提供支持。在AR/VR领域，NOCSformer 模型可以提供更准确的物体形状和姿态信息，从而使用户能够更自然地与虚拟环境中的物体进行交互。

衍生相关工作

OmniNOCS 数据集的提出为NOCS预测和3D定位任务提供了新的研究方向。基于 OmniNOCS 数据集，NOCSformer 模型取得了显著的成果，为后续研究提供了重要的参考。此外，OmniNOCS 数据集还衍生了其他相关的工作，例如，研究人员可以利用该数据集进行更深入的NOCS预测模型研究、3D定位算法研究和场景理解任务研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集