Objectron, ApolloCar3D, Pix3D, ObjectNet3D, PASCAL3D+, KITTI

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/YoungXIAO13/ObjectPoseEstimationDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集主要用于物体姿态估计，包括3D边界框、6D姿态+掩码、欧拉角+边界框等标注，适用于不同的环境和场景。

These datasets are primarily utilized for object pose estimation, encompassing annotations such as 3D bounding boxes, 6D pose + masks, and Euler angles + bounding boxes, suitable for various environments and scenarios.

创建时间：

2019-07-18

原始信息汇总

数据集概述

对象姿态估计数据集

目的: 总结用于对象姿态估计和视角估计的资源。
术语定义: 3D CAD模型称为模型，2D图片中的对象称为对象。

数据集内容

野外对象 :camera:
- Pix3D: 提供精确的2D-3D对齐。
- PASCAL3D+: 视角估计的事实基准。
- 主要数据集:
  - Objectron: 包含15K视频和4M图像，带3D边界框标注。
  - ApolloCar3D: 包含34种车型，60K+对象，5,277图像。
  - Pix3D: 包含9个类别，395模型，10,069图像。
  - ObjectNet3D: 包含100个类别，201,888对象，90,127图像。
  - PASCAL3D+: 包含12个类别，36,292对象，30,889图像。
  - KITTI: 包含80,256对象，14,999图像。
受控环境中的对象 :movie_camera:
- BOP基准: 提供精确的3D对象模型和2D-3D对齐。
- 主要数据集:
  - GraspNet-1B: 包含88模型，190视频，97,280帧。
  - NOCS: 包含6个类别，300K合成图像和8K真实图像。
  - YCBInEOAT: 包含5模型，9视频，7449帧。
  - YCB-Video: 包含21模型，92视频，133,827帧。
  - T-LESS: 包含30模型，20视频，约49K帧。
  - Doumanoglou: 包含2模型，3视频，183帧。
  - Tejani: 包含6模型，6视频，2,067帧。
  - Occluded-LINEMOD: 包含8模型，1,214帧，8,992对象。
  - LINEMOD: 包含15模型，15视频，18,273帧。
3D模型数据集 :bike:
- 目的: 测试网络对未见过的3D模型（相对于训练集）的泛化能力。
- 主要数据集:
  - ABC: 包含100万工业CAD模型。
  - ShapeNetCore: 包含55个类别，约51,300模型。
  - ModelNet-40: 包含40个类别，12,311模型。
渲染方法 :mountain_bicyclist:
- 可微分渲染器:
  - Neural 3D Mesh Renderer: Kato et al. CVPR 2018
  - RenderNet: Thu et al. NIPS 2018
- Blender渲染:
  - BlenderProc
  - blender-cli-rendering
  - pvnet-rendering
  - bpycv
- 物理模拟器:
  - PyBullet: 机器人社区中非常流行。
- 其他:
  - Glumpy
  - UnrealCV
  - SyntheticComputerVision

搜集汇总

数据集介绍

构建方式

该数据集集合涵盖了多个在物体姿态估计领域中广泛使用的数据集，如Objectron、ApolloCar3D、Pix3D等。这些数据集的构建方式各异，但共同点在于它们都提供了丰富的3D模型和2D图像对齐信息。例如，Objectron通过15K个标注视频和4M个标注图像，提供了精确的3D边界框标注；而ApolloCar3D则通过5,277张图像中的60K+个物体，提供了6D姿态和掩码信息。这些数据集的构建通常涉及从真实世界或受控环境中采集图像，并结合3D模型进行精确的2D-3D对齐标注，以支持物体姿态估计的研究和应用。

使用方法

使用这些数据集时，用户可以根据具体需求选择合适的子数据集。例如，对于需要大量自然场景数据的研究，可以选择Objectron；而对于需要精确6D姿态标注的研究，则可以选择ApolloCar3D或Pix3D。使用这些数据集时，通常需要下载相应的数据文件，并根据提供的工具包进行数据预处理和标注文件的生成。例如，可以使用BOP工具包中的`ply2obj.py`将原始的`.ply`文件转换为`.obj`文件，并通过`create_annotation.py`生成统一的标注文件。此外，用户还可以根据数据集的格式文档，自定义数据处理流程，以满足特定的研究需求。

背景与挑战

背景概述

对象姿态估计是计算机视觉领域的一个重要研究方向，旨在从图像或视频中准确推断出物体的三维姿态。近年来，随着深度学习技术的快速发展，对象姿态估计的研究取得了显著进展。Objectron、ApolloCar3D、Pix3D、ObjectNet3D、PASCAL3D+和KITTI等数据集在这一领域发挥了关键作用。这些数据集由谷歌、MIT、斯坦福大学等知名机构的研究团队创建，涵盖了从自然场景到受控环境中的多种对象，提供了丰富的标注信息，如3D边界框、6D姿态、深度图等。这些数据集不仅为研究人员提供了标准化的基准，还推动了姿态估计算法的发展，尤其是在复杂场景下的鲁棒性和精度提升方面。

当前挑战

尽管这些数据集在对象姿态估计领域取得了显著进展，但仍面临诸多挑战。首先，自然场景中的对象姿态估计需要处理光照变化、遮挡、背景复杂等问题，这对算法的鲁棒性提出了高要求。其次，数据集的构建过程中，标注的准确性和一致性是一个巨大的挑战，尤其是在大规模数据集的背景下。此外，如何有效利用合成数据与真实数据进行联合训练，以提升模型在未见场景中的泛化能力，也是当前研究的重点和难点。最后，随着应用场景的扩展，如何在实时性和计算资源之间取得平衡，成为实际应用中的关键问题。

常用场景

经典使用场景

在计算机视觉领域，这些数据集如Objectron、ApolloCar3D、Pix3D、ObjectNet3D、PASCAL3D+和KITTI，广泛应用于物体姿态估计和视角估计任务。这些数据集提供了丰富的2D-3D对齐信息，使得研究人员能够开发和验证各种算法，特别是在处理复杂场景中的物体识别和定位问题时。例如，Objectron通过提供大规模的物体中心视频和图像，支持了3D边界框的精确标注，成为物体姿态估计研究的重要资源。

解决学术问题

这些数据集解决了物体姿态估计和视角估计中的关键学术问题，如在复杂背景和光照条件下准确识别和定位物体。PASCAL3D+作为视角估计的事实标准基准，推动了相关算法的发展。通过提供精确的2D-3D对齐和丰富的标注信息，这些数据集为研究人员提供了一个标准化的测试平台，促进了算法的比较和改进，从而推动了计算机视觉领域的技术进步。

实际应用

在实际应用中，这些数据集支持了自动驾驶、机器人操作、增强现实等多个领域的发展。例如，KITTI数据集在自动驾驶车辆的环境感知和物体检测中发挥了重要作用。ApolloCar3D和Pix3D则在汽车工业中的车辆识别和姿态估计方面提供了关键数据支持。这些数据集的应用不仅提升了技术性能，也为相关行业的智能化转型提供了数据基础。

数据集最近研究