five

Objectron, ApolloCar3D, Pix3D, ObjectNet3D, PASCAL3D+, KITTI

收藏
github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/YoungXIAO13/ObjectPoseEstimationDatasets
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集主要用于物体姿态估计,包括3D边界框、6D姿态+掩码、欧拉角+边界框等标注,适用于不同的环境和场景。

These datasets are primarily utilized for object pose estimation, encompassing annotations such as 3D bounding boxes, 6D pose + masks, and Euler angles + bounding boxes, suitable for various environments and scenarios.
创建时间:
2019-07-18
原始信息汇总

数据集概述

对象姿态估计数据集

  • 目的: 总结用于对象姿态估计和视角估计的资源。
  • 术语定义: 3D CAD模型称为模型,2D图片中的对象称为对象

数据集内容

  1. 野外对象 :camera:

    • Pix3D: 提供精确的2D-3D对齐。
    • PASCAL3D+: 视角估计的事实基准。
    • 主要数据集:
      • Objectron: 包含15K视频和4M图像,带3D边界框标注。
      • ApolloCar3D: 包含34种车型,60K+对象,5,277图像。
      • Pix3D: 包含9个类别,395模型,10,069图像。
      • ObjectNet3D: 包含100个类别,201,888对象,90,127图像。
      • PASCAL3D+: 包含12个类别,36,292对象,30,889图像。
      • KITTI: 包含80,256对象,14,999图像。
  2. 受控环境中的对象 :movie_camera:

    • BOP基准: 提供精确的3D对象模型和2D-3D对齐。
    • 主要数据集:
      • GraspNet-1B: 包含88模型,190视频,97,280帧。
      • NOCS: 包含6个类别,300K合成图像和8K真实图像。
      • YCBInEOAT: 包含5模型,9视频,7449帧。
      • YCB-Video: 包含21模型,92视频,133,827帧。
      • T-LESS: 包含30模型,20视频,约49K帧。
      • Doumanoglou: 包含2模型,3视频,183帧。
      • Tejani: 包含6模型,6视频,2,067帧。
      • Occluded-LINEMOD: 包含8模型,1,214帧,8,992对象。
      • LINEMOD: 包含15模型,15视频,18,273帧。
  3. 3D模型数据集 :bike:

    • 目的: 测试网络对未见过的3D模型(相对于训练集)的泛化能力。
    • 主要数据集:
      • ABC: 包含100万工业CAD模型。
      • ShapeNetCore: 包含55个类别,约51,300模型。
      • ModelNet-40: 包含40个类别,12,311模型。
  4. 渲染方法 :mountain_bicyclist:

    • 可微分渲染器:
      • Neural 3D Mesh Renderer: Kato et al. CVPR 2018
      • RenderNet: Thu et al. NIPS 2018
    • Blender渲染:
      • BlenderProc
      • blender-cli-rendering
      • pvnet-rendering
      • bpycv
    • 物理模拟器:
      • PyBullet: 机器人社区中非常流行。
    • 其他:
      • Glumpy
      • UnrealCV
      • SyntheticComputerVision
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集集合涵盖了多个在物体姿态估计领域中广泛使用的数据集,如Objectron、ApolloCar3D、Pix3D等。这些数据集的构建方式各异,但共同点在于它们都提供了丰富的3D模型和2D图像对齐信息。例如,Objectron通过15K个标注视频和4M个标注图像,提供了精确的3D边界框标注;而ApolloCar3D则通过5,277张图像中的60K+个物体,提供了6D姿态和掩码信息。这些数据集的构建通常涉及从真实世界或受控环境中采集图像,并结合3D模型进行精确的2D-3D对齐标注,以支持物体姿态估计的研究和应用。
使用方法
使用这些数据集时,用户可以根据具体需求选择合适的子数据集。例如,对于需要大量自然场景数据的研究,可以选择Objectron;而对于需要精确6D姿态标注的研究,则可以选择ApolloCar3D或Pix3D。使用这些数据集时,通常需要下载相应的数据文件,并根据提供的工具包进行数据预处理和标注文件的生成。例如,可以使用BOP工具包中的`ply2obj.py`将原始的`.ply`文件转换为`.obj`文件,并通过`create_annotation.py`生成统一的标注文件。此外,用户还可以根据数据集的格式文档,自定义数据处理流程,以满足特定的研究需求。
背景与挑战
背景概述
对象姿态估计是计算机视觉领域的一个重要研究方向,旨在从图像或视频中准确推断出物体的三维姿态。近年来,随着深度学习技术的快速发展,对象姿态估计的研究取得了显著进展。Objectron、ApolloCar3D、Pix3D、ObjectNet3D、PASCAL3D+和KITTI等数据集在这一领域发挥了关键作用。这些数据集由谷歌、MIT、斯坦福大学等知名机构的研究团队创建,涵盖了从自然场景到受控环境中的多种对象,提供了丰富的标注信息,如3D边界框、6D姿态、深度图等。这些数据集不仅为研究人员提供了标准化的基准,还推动了姿态估计算法的发展,尤其是在复杂场景下的鲁棒性和精度提升方面。
当前挑战
尽管这些数据集在对象姿态估计领域取得了显著进展,但仍面临诸多挑战。首先,自然场景中的对象姿态估计需要处理光照变化、遮挡、背景复杂等问题,这对算法的鲁棒性提出了高要求。其次,数据集的构建过程中,标注的准确性和一致性是一个巨大的挑战,尤其是在大规模数据集的背景下。此外,如何有效利用合成数据与真实数据进行联合训练,以提升模型在未见场景中的泛化能力,也是当前研究的重点和难点。最后,随着应用场景的扩展,如何在实时性和计算资源之间取得平衡,成为实际应用中的关键问题。
常用场景
经典使用场景
在计算机视觉领域,这些数据集如Objectron、ApolloCar3D、Pix3D、ObjectNet3D、PASCAL3D+和KITTI,广泛应用于物体姿态估计和视角估计任务。这些数据集提供了丰富的2D-3D对齐信息,使得研究人员能够开发和验证各种算法,特别是在处理复杂场景中的物体识别和定位问题时。例如,Objectron通过提供大规模的物体中心视频和图像,支持了3D边界框的精确标注,成为物体姿态估计研究的重要资源。
解决学术问题
这些数据集解决了物体姿态估计和视角估计中的关键学术问题,如在复杂背景和光照条件下准确识别和定位物体。PASCAL3D+作为视角估计的事实标准基准,推动了相关算法的发展。通过提供精确的2D-3D对齐和丰富的标注信息,这些数据集为研究人员提供了一个标准化的测试平台,促进了算法的比较和改进,从而推动了计算机视觉领域的技术进步。
实际应用
在实际应用中,这些数据集支持了自动驾驶、机器人操作、增强现实等多个领域的发展。例如,KITTI数据集在自动驾驶车辆的环境感知和物体检测中发挥了重要作用。ApolloCar3D和Pix3D则在汽车工业中的车辆识别和姿态估计方面提供了关键数据支持。这些数据集的应用不仅提升了技术性能,也为相关行业的智能化转型提供了数据基础。
数据集最近研究
最新研究方向
在物体姿态估计领域,Objectron、ApolloCar3D、Pix3D等数据集的研究方向主要集中在提升模型在复杂场景中的鲁棒性和精度。这些数据集不仅提供了丰富的3D标注信息,还涵盖了从自然场景到受控环境的多维度数据,推动了基于深度学习的6D姿态估计技术的发展。特别是,Objectron的大规模视频数据集为动态场景下的物体姿态估计提供了新的挑战和机遇,而ApolloCar3D和Pix3D则在汽车和家具等特定类别上提供了高精度的6D姿态标注,进一步推动了相关应用的落地。这些数据集的研究不仅促进了学术界对物体姿态估计算法的优化,也为工业界提供了可靠的基准测试平台,尤其是在自动驾驶和机器人操作等领域具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作