OmniNOCS

github2024-07-12 更新2024-07-13 收录

下载链接：

https://github.com/google-deepmind/omninocs

下载链接

链接失效反馈

官方服务：

资源简介：

OmniNOCS是一个大规模的NOCS数据集，包含来自不同领域的真实标注数据，如户外场景、室内场景和以物体为中心的视频。数据集中的每一帧都提供了实例分割、NOCS坐标和3D边界框的标注。

OmniNOCS is a large-scale NOCS dataset containing real-world annotated data from diverse domains, including outdoor scenes, indoor scenes, and object-centric videos. Each frame in the dataset is annotated with instance segmentation, NOCS coordinates, and 3D bounding boxes.

创建时间：

2024-07-12

原始信息汇总

OmniNOCS 数据集概述

数据集简介

OmniNOCS 是一个大规模的 NOCS 数据集，包含来自不同领域的数据：户外场景、室内场景和以物体为中心的视频。该数据集包含独立的帧，其中物体的标注包括标准 3D 方向、实例掩码和 3D NOCS 坐标。OmniNOCS 提供了以下数据源的标注：[KITTI], [Virtual-KITTI], [nuScenes], [Waymo-OD], [Cityscapes], [Hypersim], [Objectron], [ARKitScenes], 和 [NOCS-Real275]。

数据格式

每个帧提供实例分割、NOCS 坐标和 3D 边界框，格式如下：

实例分割：实例图存储在 <path_to_frame>_instances.png，为 16 位单通道 PNG 图像。每个有效掩码的对象在其掩码中的每个像素处具有实例 ID。实例 ID 在该特定帧中是唯一的。没有有效对象索引的区域可以是背景（包含 0）或未知（包含 65535）。未知区域不应用于监督/评估。
NOCS 坐标：NOCS 图存储在 <path_to_frame>_nocs.png，为 16 位 4 通道 PNG 图像。前 3 个通道表示 X,Y,Z NOCS 值。最后一个通道是一个二进制掩码，表示像素位置是否包含有效的 NOCS 坐标。请注意，某些领域（特别是户外数据集如 KITTI）的 NOCS 标注是稀疏的，因此对象实例掩码内的所有像素不一定具有有效的 NOCS 坐标。
3D 边界框：每个对象的 3D 边界框在 JSON 元数据文件中提供（如下所述）。

每个 OmniNOCS <source>-<split> 组合（例如 KITTI-train）都有自己的 JSON 元数据文件。每个 JSON 包含一个每帧元数据的列表，列表长度等于该组合中的帧数。每帧元数据结构如下：

json { "objects": [ { "rotation": 3x3 标准方向（对象到相机变换）, "translation": 3x1 3D 平移（以米为单位）（在相机坐标中）, "size": 3x1 3D 尺寸（以米为单位）, "object_id": 实例分割图中使用的实例 ID, "category": 对象类别的名称，字符串形式 } ], "image_name": 该帧在原始数据集中的图像路径, "omninocs_name": 该帧在 OmniNOCS 中的 NOCS 和实例图像路径, "nocs_image_downscale": NOCS 图像缩小比例（图像分辨率 / NOCS 图分辨率），用于 NOCS 图像小于彩色图像的情况, "intrinsics": { "fx": 焦距（x）以像素为单位, "fy": 焦距（y）以像素为单位, "cx": 主点（x）以像素为单位, "cy": 主点（y）以像素为单位 } }

坐标约定

我们使用右手坐标系来表示对象和相机。

对象坐标系：OmniNOCS 对象具有按类别标准化的帧。这意味着类别中所有对象的 X, Y 和 Z 轴一致定向。例如，汽车的 +X 轴向前，+Y 轴向左，+Z 轴向上。当对象在场景中直立放置时，其 +Z 轴指向重力反方向。某些具有对称性的类别（如瓶子或碗）具有绕轴的旋转对称性，使得标准方向不明确。我们还注意到，由于遮挡或标注错误，某些对象的方向可能不是标准的。请报告任何此类情况，以便可以删除或更正。
相机坐标系：我们的相机约定使用 +X 轴向右，+Y 轴向下，+Z 轴从相机向外。我们的元数据文件仅包含相机内参（无外参），因为对象姿态已经相对于相机帧提供。

下载

OmniNOCS 为其他数据集的图像提供 NOCS 标注。请参考 SETUP.md 获取下载所有数据和设置 OmniNOCS 的说明。

使用

我们提供了一个 colab 笔记本，下载训练集的一小部分并可视化 OmniNOCS 的 NOCS 和边界框标注，以展示数据的使用方法。

引用

latex @article{omninocs2024, title={OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects}, author={Akshay Krishnan and Abhijit Kundu and Kevis-Kokitsi Maninis and James Hays and Matthew Brown}, year={2024}, }

许可和免责声明

所有软件均根据 Apache License, Version 2.0 (Apache 2.0) 许可；您不得使用此文件，除非符合 Apache 2.0 许可。您可以从以下网址获取 Apache 2.0 许可的副本：https://www.apache.org/licenses/LICENSE-2.0

我们的数据集为以下数据集的图像添加了标注，这些数据集的许可如下：

数据集	许可
KITTI	CC BY-NC-SA 3.0 DEED
ARKitScenes	CC BY-NC-SA 4.0 DEED
Virtual KITTI	CC BY-NC-SA 3.0 LEGAL CODE
nuScenes	CC BY-NC-SA 4.0
Hypersim	CC BY-NC-SA 3.0 DEED
NOCS-Real275	MIT
Waymo OD	Apache 2.0 (See Waymo terms)
Objectron	Microsoft C-UDA
Cityscapes 3D	CC-BY 4.0

所有其他材料均根据 Creative Commons Attribution 4.0 International License (CC-BY) 许可。您可以从以下网址获取 CC-BY 许可的副本：https://creativecommons.org/licenses/by/4.0/legalcode

除非适用法律要求或书面同意，否则根据 Apache 2.0 或 CC-BY 许可分发的所有软件和材料均按“原样”分发，不提供任何明示或暗示的担保或条件。请参阅许可协议以了解特定语言下的权限和限制。

这不是 Google 的官方产品。

搜集汇总

数据集介绍

构建方式

OmniNOCS数据集的构建基于多个领域的数据源，包括户外场景、室内场景和以物体为中心的视频。该数据集通过为每个独立帧中的物体提供规范的3D方向、实例掩码和3D NOCS坐标，实现了大规模的NOCS标注。具体而言，OmniNOCS整合了来自KITTI、Virtual-KITTI、nuScenes、Waymo-OD、Cityscapes、Hypersim、Objectron、ARKitScenes和NOCS-Real275等多个数据集的图像，并为其添加了详细的NOCS标注。

特点

OmniNOCS数据集的显著特点在于其跨领域的广泛覆盖和详细的标注信息。每个帧不仅包含实例分割图，还提供了NOCS坐标图和3D边界框信息。此外，数据集中的每个物体都附有规范的3D方向和尺寸信息，以及类别名称，这为3D物体识别和姿态估计提供了丰富的训练和评估资源。

使用方法

使用OmniNOCS数据集时，用户可以通过提供的JSON元数据文件访问每个帧的详细信息，包括物体的旋转、平移、尺寸和类别等。数据集还提供了一个Colab笔记本，用于下载和可视化数据集的子集，帮助用户快速了解和使用NOCS和边界框标注。此外，数据集的下载和设置指南详见SETUP.md文件，确保用户能够顺利获取和处理数据。

背景与挑战

背景概述

OmniNOCS数据集是由DeepMind Technologies Limited于2024年创建的，旨在为不同领域的数据提供标准化的3D方向、实例掩码和3D NOCS坐标标注。该数据集涵盖了户外场景、室内场景和以物体为中心的视频，主要研究人员包括Akshay Krishnan、Abhijit Kundu、Kevis-Kokitsi Maninis、James Hays和Matthew Brown。OmniNOCS的核心研究问题是如何在多领域数据中实现一致的3D物体方向和尺寸标注，这对于提升计算机视觉系统在复杂环境中的物体识别和定位能力具有重要意义。该数据集的发布为相关领域的研究提供了丰富的标注数据，推动了3D视觉技术的发展。

当前挑战

OmniNOCS数据集在构建过程中面临多项挑战。首先，跨不同领域的数据整合需要解决数据格式和标注标准的不一致性问题。其次，户外场景中的NOCS标注较为稀疏，导致部分物体实例的NOCS坐标不完整，这增加了数据处理的复杂性。此外，某些物体类别存在旋转对称性，使得其规范方向的确定变得模糊。最后，数据集的多样性也带来了标注错误和遮挡问题的挑战，这些问题需要在数据使用过程中进行校正和处理。

常用场景

经典使用场景

OmniNOCS数据集在计算机视觉领域中，以其对多领域场景的3D对象标注而著称。该数据集的经典使用场景包括但不限于：在自动驾驶系统中，用于训练和评估车辆周围环境的3D对象检测与姿态估计；在增强现实应用中，用于精确地对现实世界中的物体进行3D建模和定位；以及在室内导航系统中，用于实现对家具和设备的精确识别与定位。这些应用场景均依赖于OmniNOCS提供的丰富且精确的3D标注数据，从而推动了相关技术的快速发展。

解决学术问题

OmniNOCS数据集通过提供跨多个领域的3D对象标注，解决了计算机视觉领域中长期存在的多源数据融合问题。该数据集不仅涵盖了户外、室内和对象中心视频等多种场景，还提供了实例分割、NOCS坐标和3D边界框等详细标注，极大地促进了3D对象检测、姿态估计和场景理解等研究方向的发展。此外，OmniNOCS的统一标注标准为跨数据集的算法评估和比较提供了坚实的基础，推动了学术界对多源数据处理技术的深入研究。

衍生相关工作

OmniNOCS数据集的发布催生了一系列相关研究和工作，特别是在3D视觉和多模态数据处理领域。例如，基于OmniNOCS的3D对象检测算法在多个国际竞赛中取得了优异成绩，推动了该领域的技术进步。此外，研究人员利用OmniNOCS的多源数据特性，开发了新的数据融合方法，显著提升了多传感器系统的性能。OmniNOCS还激发了对大规模数据集标注和管理的深入研究，促进了数据集标准化和共享机制的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集