Unseen Object 6D Pose Estimation Dataset

Name: Unseen Object 6D Pose Estimation Dataset
Creator: 上海交通大学
Published: 2022-06-24 00:29:53
License: 暂无描述

arXiv2022-06-24 更新2024-07-24 收录

下载链接：

https://graspnet.net/unseen6d

下载链接

链接失效反馈

官方服务：

资源简介：

Unseen Object 6D Pose Estimation Dataset是一个专为未见对象的6D姿态估计任务设计的大型数据集。该数据集包含超过1000个对象和1500个场景的训练集，以及包含48个未见对象和90个真实世界捕捉场景的测试集。数据集的构建旨在支持算法在测试阶段对新对象的6D姿态进行估计。通过使用商业3D扫描仪，可以在几分钟内获取对象的网格模型，从而快速部署6D姿态估计算法。该数据集的应用领域包括机器人抓取和VR/AR等，旨在解决在实际应用中频繁出现的新对象的姿态估计问题。

The Unseen Object 6D Pose Estimation Dataset is a large-scale dataset specifically designed for the 6D pose estimation task of unseen objects. It comprises a training set with over 1,000 objects and 1,500 scenes, as well as a test set containing 48 unseen objects and 90 real-world captured scenes. The dataset is constructed to enable algorithms to estimate the 6D poses of novel objects during the testing phase. By employing commercial 3D scanners, the mesh models of objects can be obtained within minutes, facilitating the rapid deployment of 6D pose estimation algorithms. Its application domains include robotic grasping and VR/AR, aiming to address the pose estimation issue of novel objects that frequently emerge in real-world scenarios.

提供机构：

上海交通大学

创建时间：

2022-06-24

搜集汇总

数据集介绍

构建方式

该数据集旨在推动未见物体6D姿态估计这一新兴任务的发展，其构建依托于GraspNet-1Billion数据集，并利用BlenderProc模拟器生成大量合成数据加以扩充。训练集包含1070个物体与1500个场景，其中1400个为合成场景，100个为真实场景。测试集则涵盖90个真实场景与76个物体，其中48个物体在训练阶段完全未曾出现，确保了评估的公平性与挑战性。物体模型主要来源于Google Scanned Object数据集，涵盖了超过1000个真实世界物体的高精度网格模型，为模型学习通用几何特征提供了丰富多样的素材。

特点

该数据集的核心特点在于其对未见物体6D姿态估计任务的针对性设计。与以往数据集不同，它严格区分训练集与测试集的物体集合，确保测试物体在训练阶段完全不可见，从而迫使算法学习模型无关的几何对应特征。此外，数据集提出了全新的评估指标IADD，该指标通过计算ADD的下确界，能够统一处理具有有限或无限姿态歧义性的物体，克服了传统ADD与ADD-S指标在对称物体评估上的局限性。数据集中还包含了大量真实场景下的遮挡与噪声，使得评估结果更贴近实际应用环境。

使用方法

使用该数据集时，研究者需以物体网格模型与单视角RGBD场景点云作为输入，通过端到端的三维对应点检测网络进行物体分割与密集对应点匹配，进而利用PROSAC算法鲁棒地求解6D姿态。数据集提供了完整的训练与测试代码，支持基于MinkowskiEngine的ResUNet14等骨干网络，并预设了数据增强策略以提升泛化能力。研究者可直接基于提供的基线方法进行改进，或利用公开的评估代码与IADD指标在测试集上公平比较不同算法的性能，无需重复进行数据生成与网络重训练。

背景与挑战

背景概述

在计算机视觉与机器人学领域，六自由度物体位姿估计是实现自主抓取、虚拟现实及增强现实等应用的核心技术。然而，传统方法通常假设测试阶段的对象已在训练集中出现，导致面对新型物体时需重新采集数据、标注关键点并训练网络，极大限制了算法的快速部署能力。为突破这一瓶颈，上海交通大学、阿里巴巴XR实验室与西蒙菲莎大学的研究人员于2022年共同提出了未见过物体六自由度位姿估计数据集。该数据集包含超过1000个训练物体与1500个场景，以及48个全新测试物体与90个真实场景，旨在推动算法在无需重新训练的条件下直接估计任意新颖物体的六自由度位姿，填补了该领域系统性基准的空白，对提升机器人柔性装配等实际应用的泛化能力具有重要影响。

当前挑战

该数据集所解决的领域问题核心在于：现有位姿估计方法高度依赖训练阶段见过的物体，无法泛化至未见过的新物体，而实际场景中新型物体频繁出现，传统流程中的合成数据生成与网络重训练耗时费力，成为快速部署的瓶颈。在构建过程中，挑战主要体现在：需要构建一个足够多样化的训练集以学习模型无关的几何对应特征，因此从GraspNet-1Billion中选取100个真实场景并利用BlenderProc模拟器生成1400个合成场景，融合超过1000个物体模型；同时，测试集需涵盖完全未见的48个物体，且包含真实场景中的遮挡与噪声；此外，现有评估指标如ADD和ADD-S无法统一处理具有无限位姿歧义性的对称物体，因此需要设计新的度量标准IADD以公平评估各类物体的位姿精度。

常用场景

经典使用场景

在计算机视觉与机器人学领域，6D位姿估计是赋予机器感知与操作能力的关键技术。然而，传统方法受限于训练集与测试集对象必须一致的预设，难以应对实际场景中频繁出现的新物体。Unseen Object 6D Pose Estimation Dataset应运而生，其核心设计理念在于构建一个全新的任务范式：算法仅需在有限已知物体上训练，即可在测试阶段直接估计任意未见物体的6D位姿。该数据集包含超过1000个训练物体与1500个场景，以及48个未见物体的测试集，为评估跨物体泛化能力提供了标准化平台。其经典使用场景聚焦于零样本位姿估计，即算法需从单视角RGB-D图像中，结合物体网格模型，在不经重新训练的前提下输出精确的6D位姿。

实际应用

在实际工业与消费级场景中，该数据集具有显著的落地价值。以柔性机器人装配为例，产线上零件种类频繁更替，传统方法需为每种新零件重新采集数据并训练模型，耗时数小时甚至数天。基于此数据集训练的方法，可在数分钟内仅通过扫描获得新零件的网格模型，即可实时估计其位姿，大幅提升产线换型效率。在增强现实（AR）场景中，用户可能面对任意日常物体，算法需即时叠加虚拟信息。该数据集支撑的零样本位姿估计能力，使得AR设备无需预存海量物体数据库，便能动态识别并追踪未知物体的空间位置，显著降低对云端计算的依赖。

衍生相关工作

该数据集催生了一系列具有影响力的后续研究工作。在方法层面，基于其任务设定，后续涌现出如GDR-Net、SO-Pose等改进型网络，它们通过引入几何引导的稠密对应或结构化输出，进一步提升了未见物体位姿估计的精度与鲁棒性。在评估体系方面，IADD度量被后续研究广泛采纳，成为处理对称物体评估的标准化工具。此外，该数据集与GraspNet-1Billion形成互补，共同推动了通用抓取与位姿估计的联合研究。在更广阔的领域，零样本位姿估计的思想被迁移至类别级位姿估计任务，如NOCS系列工作，其核心假设与评估范式均受到本数据集的启发与影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集