PACE

Name: PACE
Creator: 上海交通大学
Published: 2024-04-01 08:22:18
License: 暂无描述

arXiv2024-04-01 更新2024-07-30 收录

下载链接：

https://github.com/qq456cvb/PACE

下载链接

链接失效反馈

官方服务：

资源简介：

PACE是一个大规模的物体姿态数据集，专注于复杂环境中的姿态标注。该数据集由上海交通大学和斯坦福大学合作创建，包含54,945帧视频，涵盖300个视频片段，涉及576个物体，分为44个类别。数据集中的物体包括刚性和可动部件，场景复杂多样，包含多种遮挡类型。创建过程中，研究团队开发了一种创新的标注系统，利用校准的三摄像头设置来高效标注真实世界数据。PACE数据集旨在推动复杂场景中姿态估计方法的发展和评估，特别是在存在遮挡和杂乱环境中的应用。

PACE is a large-scale object pose dataset focused on pose annotation in complex environments. This dataset was collaboratively created by Shanghai Jiao Tong University and Stanford University, containing 54,945 video frames spanning 300 video clips, involving 576 objects categorized into 44 classes. The objects in the dataset include both rigid and movable components, with complex and diverse scenes covering various types of occlusions. During its development, the research team developed an innovative annotation system that utilizes a calibrated three-camera setup to efficiently annotate real-world data. The PACE dataset aims to promote the development and evaluation of pose estimation methods in complex scenarios, especially for applications with occlusions and cluttered environments.

提供机构：

上海交通大学

创建时间：

2023-12-23

原始信息汇总

PACE 数据集概述

数据集简介

PACE（Pose Annotations in Cluttered Environments）是一个大规模的基准数据集，旨在推动复杂环境中姿态估计方法的发展和评估。该数据集包含55K帧，共258K个标注，涵盖300个视频中的238个对象，涉及43个类别，包括刚性和铰接物品。此外，PACE还提供了PACESim，包含100K张逼真的模拟帧和2.4M个标注。

数据集结构

数据集主要遵循BOP格式，结构如下：

camera_pbr.json models(eval|nocs)? ├─ models_info.json ├─ (artic_info.json)? ├─ obj${OBJ_ID}.ply model_splits ├─ category | ├─ ${category}(train|val|test).txt | ├─ (train|val|test).txt ├─ instance | ├─ (train|val|test).txt (train(_pbr_cat|_pbr_inst)|val(_inst|_pbr_cat)|test) ├─ ${SCENE_ID} │ ├─ scene_camera.json │ ├─ scene_gt.json │ ├─ scene_gt_info.json │ ├─ scene_gt_coco_det_modal(_partcat|_inst)?.json │ ├─ depth │ ├─ mask │ ├─ mask_visib │ ├─ rgb | ├─ (rgb_nocs)?

数据集内容

camera_pbr.json：PBR渲染的相机参数。
models(_eval|_nocs)?：3D对象模型。
- models_info.json：网格的元信息，包括直径、边界和比例。
- artic_info.json：铰接对象的部分信息。
- obj_${OBJ_ID}.ply：PLY网格文件。
model_splits：用于训练/验证/测试的模型ID。
train(_pbr_cat|_pbr_inst)|val(_inst|_pbr_cat)|test：不同级别的训练和测试数据。
- ${SCENE_ID}：每个场景的文件夹。
  - scene_camera.json：相机参数。
  - scene_gt.json：地面真实标注。
  - scene_gt_info.json：地面真实姿态的元信息。
  - scene_gt_coco_det_modal(_partcat|_inst)?.json：COCO格式的2D边界框和实例分割标签。
  - rgb：彩色图像。
  - rgb_nocs：对象的归一化坐标。
  - depth：深度图像。
  - mask：对象的掩码。
  - mask_visib：对象可见部分的掩码。

数据集下载

数据集可在HuggingFace下载。

数据集可视化

提供了一个可视化脚本visualizer.ipynb，用于可视化地面真实姿态标注及其渲染的3D模型。

基准评估

评估代码已发布，具体步骤详见README文件。

标注工具

提供了标注工具的源代码，包括对象对齐、姿态标注等。

许可证

数据集内容遵循MIT许可证，部分模型遵循CC BY许可证。

引用

@misc{you2023pace, title={PACE: Pose Annotations in Cluttered Environments}, author={You, Yang and Xiong, Kai and Yang, Zhening and Huang, Zhengxiang and Zhou, Junwei and Shi, Ruoxi and Fang, Zhou and Harley, Adam W. and Guibas, Leonidas and Lu, Cewu}, booktitle={European Conference on Computer Vision}, year={2024}, organization={Springer} }

搜集汇总

数据集介绍

构建方式

在三维物体姿态估计领域，构建具有真实遮挡场景的大规模数据集面临显著挑战。PACE数据集通过创新的标注流程应对这一难题，其构建始于对576个常见物体的三维扫描与数字化，涵盖44个类别，包括刚性与关节物体。数据采集采用精心校准的三相机系统，通过ArUco标记实现静态物体的自动姿态标注，并运用先进的图像修复技术消除标记以保持场景真实性。对于动态物体，则结合BundleTrack算法进行初始跟踪，辅以密集的人工校正，确保标注的高精度。最终生成包含54,945帧图像和257,673个标注的大规模数据集，并提供了详尽的遮挡感知分割掩码。

特点

PACE数据集的核心特点在于其规模性与场景复杂性。该数据集包含超过25万个人工标注的姿态，覆盖44个物体类别和10种多样化环境，在数据体量上超越了多数现有基准。其场景设计刻意引入了不同层级的遮挡，从轻微到严重，模拟了真实世界中的杂乱环境。尤为突出的是，数据集包含了关节物体，这为姿态估计研究带来了新的挑战。与NOCS REAL275等数据集相比，PACE在类别多样性、场景复杂度和数据规模上均有显著提升，能够更有效地揭示现有模型在真实场景下的泛化局限。

使用方法

PACE数据集为三维姿态估计与跟踪研究提供了系统的评估框架。研究者可依据其划分的训练集、验证集和测试集进行模型开发与性能评测，其中大规模合成数据可用于训练，而真实世界数据则用于最终评估。数据集支持实例级与类别级姿态估计两条基准赛道，并遵循BOP挑战赛的评估协议，采用可见表面差异、对称感知表面距离等指标。对于姿态跟踪任务，数据集提供了模型依赖与模型无关两种评估模式。通过在该数据集上测试，研究者能够深入分析模型在复杂遮挡、关节物体处理以及从仿真到现实迁移等方面的性能瓶颈。

背景与挑战

背景概述

三维物体姿态估计作为计算机视觉与机器人领域的核心任务，其发展深度依赖于高质量基准数据集的构建。2024年，由上海交通大学、斯坦福大学及地平线机器人等机构的研究团队联合发布了PACE数据集，旨在解决杂乱场景下物体姿态估计的评估瓶颈。该数据集聚焦于现实世界中普遍存在的遮挡与物体堆叠问题，涵盖了44个类别、576个物体实例，包含超过5.4万帧图像与25.7万条姿态标注，规模显著超越了此前的NOCS REAL275等基准。PACE的创立标志着该领域从受控实验室环境向复杂现实场景的重要跨越，为评估模型的鲁棒性与泛化能力提供了关键基础设施。

当前挑战

PACE数据集所针对的核心领域挑战在于提升姿态估计模型在复杂现实场景中的性能。现有先进模型在受控基准上表现优异，但在面对PACE所呈现的严重遮挡、动态物体、关节物体以及大规模类别多样性时，性能出现显著衰退，揭示了当前方法在泛化性与可扩展性上的根本局限。在构建层面，数据集创建面临多重挑战：为在真实杂乱环境中获取高精度姿态真值，团队需开发创新的三相机标注系统以解决深度模糊问题；针对动态物体，需结合BundleTrack等先进跟踪算法与密集人工校正来应对跟踪漂移；此外，通过标记修复技术消除场景中的人工标记，以维持数据集的真实性与完整性，这一系列工程挑战共同塑造了数据集的最终形态与质量。

常用场景

经典使用场景

在三维视觉与机器人学领域，物体姿态估计是理解与交互物理世界的核心技术。PACE数据集以其大规模、高复杂度的杂乱场景标注，为这一领域提供了前所未有的基准测试平台。其最经典的使用场景在于评估和推动杂乱遮挡环境下，特别是包含动态物体与铰接物体的6D姿态估计算法的鲁棒性与泛化能力。研究者利用其包含的576个物体、44个类别在十个不同环境下的视频序列，能够系统性地分析算法在真实世界复杂干扰下的性能瓶颈，从而引导模型从实验室环境向实际应用场景的有效迁移。

衍生相关工作

PACE数据集的发布，迅速成为评估和改进一系列经典姿态估计与跟踪工作的基准。在实例级姿态估计方面，它被用于深入分析PPF、CosyPose、SurfEmb和GDRNPP等方法的局限；在类别级姿态估计领域，则对NOCS、HS-Pose、SGPA、DualPoseNet、SAR-Net、CPPF++及ANCSH等算法的可扩展性提出了严峻挑战。同时，在姿态跟踪任务上，PACE为模型依赖的RBOT、ICG等方法，以及模型无关的BundleTrack、CAPTRA、6-PACK等前沿跟踪器设立了新的性能标尺，催生了针对复杂场景下长期稳定跟踪与铰接物体处理的新研究方向。

数据集最近研究