StereOBJ-1M
收藏arXiv2022-03-15 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/stereobj-1m
下载链接
链接失效反馈官方服务:
资源简介:
StereOBJ-1M数据集是由卡内基梅隆大学创建的大型立体RGB图像对象姿态估计数据集,旨在解决透明、半透明和反射物体的姿态估计挑战。该数据集包含超过393,000帧和超过150万个6D对象姿态注释,涵盖18个对象在182个场景中的记录。数据集创建过程中,采用了一种新颖的多视角方法来高效标注姿态数据,使得数据捕获可以在复杂和灵活的环境中进行。该数据集主要应用于增强现实和机器人操作等领域,旨在解决透明和反射物体的姿态估计问题。
StereOBJ-1M is a large-scale stereo RGB image object pose estimation dataset created by Carnegie Mellon University, aiming to address the challenges of pose estimation for transparent, translucent and reflective objects. This dataset contains over 393,000 frames and more than 1.5 million 6D object pose annotations, covering 18 objects across 182 recording scenes. During the dataset construction, a novel multi-view method was adopted to efficiently annotate pose data, enabling data capture to be conducted in complex and flexible environments. This dataset is primarily applied in fields such as augmented reality and robotic manipulation, targeting the pose estimation problem of transparent and reflective objects.
提供机构:
卡内基梅隆大学
创建时间:
2021-09-21
搜集汇总
数据集介绍

构建方式
在六维物体姿态估计领域,构建大规模真实场景数据集面临透明、反光物体难以标注的挑战。StereOBJ-1M采用创新的多视角几何标注方法,通过手持立体相机在11种不同环境中扫描182个场景,结合静态相机与基准标记物实时计算相机位姿。标注过程仅需在少量帧中标注二维关键点,利用三角测量重建三维关键点位置,进而通过正交普鲁克分析将CAD模型对齐至关键点,最终将六维姿态传播至全部39万余帧图像,实现高效且高精度的数据标注,平均标注误差仅为2.3毫米。
特点
StereOBJ-1M作为首个以立体RGB图像为输入的大规模六维姿态估计数据集,涵盖18个物体,包括透明、半透明及高反光物体,并涉及对称性挑战。数据集包含超过39万帧高分辨率立体图像与150万条姿态标注,场景覆盖室内外多样环境,增强了数据的真实性与泛化能力。其独特之处在于包含视觉相似但不同的物体实例,为模型区分细微差异提供了研究基础。数据集的规模足以支持深度神经网络训练,无需依赖合成数据,且标注精度在公开数据集中居于领先地位。
使用方法
该数据集适用于训练与评估基于立体RGB的六维物体姿态估计模型。用户可按论文提供的划分方式,将图像序列分为训练、验证与测试集,确保场景独立性。基准实验展示了PVNet与KeyPose等关键点检测框架在单目与立体输入下的性能,并引入了新颖的对象级三角测量优化方法,直接优化多视图中的六维姿态。研究人员可利用数据集探索透明与反光物体的姿态估计、多实例检测及场景适应性等问题,同时支持从姿态标注推导实例分割掩码、二维三维边界框等衍生任务,为增强现实与机器人操作等应用提供可靠基准。
背景与挑战
背景概述
在计算机视觉领域,六维物体姿态估计是增强现实与机器人操作等应用的核心技术。针对透明、半透明及高反射物体的姿态估计,传统基于RGB-D传感器的深度感知方法常因信号失效而面临挑战。为此,卡内基梅隆大学的研究团队于2022年推出了StereOBJ-1M数据集,该数据集以立体RGB图像为输入模态,专注于解决物体透明性、反射性及环境光照变化等复杂问题。该数据集包含超过39万帧立体图像及150万条姿态标注,涵盖18个物体在182个室内外场景中的记录,其规模与多样性为大规模深度学习模型提供了充分的训练资源,显著推动了立体视觉在物体姿态估计领域的发展。
当前挑战
StereOBJ-1M数据集致力于解决六维物体姿态估计中的核心挑战,尤其是在透明与高反射物体上,传统深度传感器因信号缺失而无法提供可靠输入。此外,数据集的构建过程亦面临多重困难:在标注方面,需克服大规模真实图像姿态标注的高成本与低精度问题,研究团队通过多视几何与关键点三角化的创新方法,实现了高效且高精度的自动标注;在场景多样性方面,数据集需涵盖复杂多变的室内外环境,以减小模型训练与真实应用之间的领域差距。这些挑战共同凸显了立体RGB模态在应对特殊物体姿态估计中的重要性。
常用场景
经典使用场景
在计算机视觉领域,六维物体姿态估计是增强现实与机器人操作等应用的核心技术。StereOBJ-1M数据集以其大规模立体RGB图像资源,为研究透明、半透明及高反射物体的姿态估计提供了经典实验平台。该数据集通过多视角几何标注方法,在复杂室内外环境中捕获了超过39万帧图像,涵盖18类具有挑战性的物体,为深度学习模型训练提供了丰富且高质量的样本。
实际应用
在工业自动化与实验室自动化场景中,精准识别透明器皿或金属工具的位姿是实现机器人抓取与操作的关键。StereOBJ-1M数据集包含生化实验用具与机械工具等多类物体,其立体图像数据可直接用于训练机器人视觉系统,提升在真实复杂环境下对透明吸管、微孔板等物体的抓取成功率。此外,该数据集在增强现实领域也为虚拟物体与透明实体的精准叠加提供了可靠的数据支持。
衍生相关工作
StereOBJ-1M的发布催生了一系列基于立体视觉的物体姿态估计研究。例如,研究者在KeyPose与PVNet等经典框架基础上,提出了物体级三角化优化方法,显著提升了立体输入下的姿态估计精度。该数据集还启发了对视觉相似但不同物体实例的区分研究,推动了多实例姿态检测算法的发展,并为场景流估计、物体重建等立体视觉下游任务提供了新的数据基础与评估标准。
以上内容由遇见数据集搜集并总结生成



