PoseGAM Synthetic Dataset

Name: PoseGAM Synthetic Dataset
Creator: 阿卜杜拉国王科技大学
Published: 2025-12-12 01:29:25
License: 暂无描述

arXiv2025-12-12 更新2025-12-13 收录

下载链接：

https://windvchen.github.io/PoseGAM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由阿卜杜拉国王科技大学团队构建，是一个面向6D物体姿态估计任务的大规模合成数据集，包含超过19万个高质量3D物体模型。数据集通过整合Toys4K、3D-FUTURE等多源公开数据，经过严格的几何质量筛选和纹理重烘焙处理，确保模型在光照变化、外观差异等复杂场景下的泛化能力。每个物体配备多视角渲染图像、几何点云图及相机位姿信息，通过Blender标准化流程生成，旨在解决未见物体在机器人操作、增强现实等领域的姿态估计难题。

This dataset was developed by a team from King Abdullah University of Science and Technology (KAUST). It is a large-scale synthetic dataset for 6D object pose estimation tasks, containing over 190,000 high-quality 3D object models. The dataset is constructed by integrating multiple publicly available datasets such as Toys4K and 3D-FUTURE, and undergoes rigorous geometric quality filtering and texture re-baking processing to ensure the generalization capability of the models under complex scenarios including varying lighting conditions and appearance differences. Each object is equipped with multi-view rendered images, geometric point clouds, and camera pose information, which are generated via standardized Blender workflows. This dataset aims to address the pose estimation challenges of unseen objects in fields such as robotic manipulation and augmented reality.

提供机构：

阿卜杜拉国王科技大学

创建时间：

2025-12-12

搜集汇总

数据集介绍

构建方式

在三维物体姿态估计领域，构建高质量合成数据集对于提升模型泛化能力至关重要。PoseGAM合成数据集通过整合多个公开三维资产库，包括Toys4K、3D-FUTURE、ABO、HSSD及Objaverse，经过严格几何质量筛选，保留了超过19万个高质量物体模型。为确保渲染一致性，采用纹理重烘焙技术统一材质表达，并利用球形Hammersley序列生成均匀分布的相机位姿。每个位姿下渲染包含纹理图像、深度图、法线图及掩码图的多模态数据，同时通过四种差异化场景设计——中心物体图像、非中心物体图像、变光照非中心图像及外观编辑图像——引入光照、视角及外观的多样性，有效增强了数据集的真实性与鲁棒性。

特点

该数据集的核心特点在于其规模宏大与场景多样性。涵盖超过19万个三维物体，每个物体配备50个均匀采样的相机位姿，确保了物体全视角的覆盖。通过引入四种渲染场景，数据集模拟了真实世界中物体可能面临的各种挑战，如光照变化、视角偏移及外观不一致性，从而为模型提供了丰富的训练信号。此外，数据集融合了多模态几何信息，包括点云图与几何特征图，使得模型能够同时利用显式几何与学习到的特征表示进行姿态推理。这种设计不仅提升了模型对未见物体的泛化能力，也为几何感知的多视角推理提供了坚实的数据基础。

使用方法

该数据集主要用于训练与评估未见物体的六维姿态估计模型。在使用时，首先将三维物体模型归一化至标准边界框内，并基于预定义的相机位姿渲染多视角模板图像及其对应的几何图。查询图像经过分割裁剪后，与模板图像一同输入基于多视角基础模型架构的网络中。网络通过交叉注意力机制融合图像特征与几何特征，直接预测物体相对于相机的变换矩阵。训练过程中，采用动态批次策略，随机选择已知视角与查询视角进行联合优化，并应用数据增强技术如随机旋转与遮挡模拟以提升鲁棒性。在推理阶段，通过最远点采样确保视角覆盖，并将预测的归一化位姿缩放回原始物体尺度，最终通过投影一致性优化输出精确姿态。

背景与挑战

背景概述

在计算机视觉领域，6D物体姿态估计旨在预测物体相对于相机的旋转与平移变换，是机器人操作、增强现实与自动驾驶等应用的核心技术。传统方法多依赖于实例或类别级别的训练，难以泛化至未见过的物体。为应对此挑战，KAUST的研究团队于2025年提出了PoseGAM Synthetic Dataset，作为PoseGAM几何感知多视图推理框架的支撑数据。该数据集汇集了来自Toys4K、3D-FUTURE、ABO等公开资源的超过19万个高质量三维物体资产，并经过纹理重烘焙与标准化处理，旨在通过大规模合成数据提升模型对未见物体的姿态估计鲁棒性与泛化能力。

当前挑战

PoseGAM Synthetic Dataset致力于解决未见物体6D姿态估计这一核心领域问题，其挑战在于如何使模型在无需显式特征匹配的情况下，仅通过查询图像与物体模板直接推理出精确姿态。构建过程中的挑战则体现于多维度：首先，需从异构数据源中筛选并整合数十万物体资产，确保几何完整性与渲染一致性；其次，为模拟真实场景的复杂性，需在多种光照条件、物体表观编辑及非中心构图等挑战性环境下生成图像数据，以弥合合成与真实域之间的差距；此外，如何将显式点云几何与学习到的几何特征有效注入多视图架构，并避免模态差异导致的训练不稳定，亦是数据集支撑方法实现的关键难点。

常用场景

经典使用场景

在计算机视觉领域，6D物体姿态估计旨在从单张图像中预测物体相对于相机的三维旋转与平移。PoseGAM合成数据集作为该领域的大规模基准，其经典使用场景在于为几何感知的多视角推理模型提供训练与验证基础。该数据集通过渲染超过19万个高质量三维物体模型，在多样化光照、外观及场景条件下生成图像与几何映射，为模型学习从查询图像到物体CAD模型的直接姿态预测提供了丰富且可控的仿真环境。研究者通常利用该数据集训练端到端网络，以消除传统方法中显式特征匹配的依赖，从而提升对未见物体的姿态估计泛化能力。

衍生相关工作

PoseGAM合成数据集及其关联的几何感知多视角框架，衍生并促进了多项经典工作的进展。其核心架构继承并扩展了VGGT、π³等多视角基础模型，通过引入点云地图与几何特征网络，开创了将显式物体几何融入端到端姿态估计的新路径。该工作直接启发了后续如RayPose等多视角扩散方法在模板视图生成上的探索。同时，数据集的大规模与多样性为未见物体姿态估计领域设立了新的数据标准，推动了如FoundPose等利用基础特征的工作，以及针对透明、反射物体等挑战性材料的后续研究，形成了从数据构建、网络设计到跨模态融合的完整技术脉络。

数据集最近研究