five

Wild6D

收藏
arXiv2022-07-01 更新2024-06-21 收录
下载链接:
https://oasisyang.github.io/semi-pose/
下载链接
链接失效反馈
官方服务:
资源简介:
Wild6D是由加州大学圣地亚哥分校的研究人员收集的一个大规模RGBD视频数据集,专注于类别级6D对象姿态估计。该数据集包含超过1.1百万张图像,覆盖1722个不同的对象实例和5个类别,如瓶子、碗、相机、笔记本电脑和杯子。Wild6D的创建旨在解决在复杂场景中对多样对象进行6D姿态估计的挑战,通过使用半监督学习方法和无需任何真实数据上的3D标注的新模型RePoNet,实现了在野外的类别级6D对象姿态估计。

Wild6D is a large-scale RGBD video dataset collected by researchers from the University of California, San Diego, focusing on category-level 6D object pose estimation. This dataset contains over 1.1 million images, covering 1722 distinct object instances across 5 categories including bottles, bowls, cameras, laptops, and cups. Wild6D was developed to address the challenge of 6D pose estimation for diverse objects in complex real-world scenes, and enables category-level 6D object pose estimation in the wild by leveraging semi-supervised learning approaches and the novel RePoNet model, which requires no 3D annotations on real-world data.
提供机构:
加州大学圣地亚哥分校
创建时间:
2022-07-01
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,类别级6D物体姿态估计长期受限于标注数据的稀缺与多样性不足。Wild6D数据集的构建旨在突破这一瓶颈,通过采集真实世界的无标注RGBD视频以丰富训练资源。该数据集利用iPhone前置摄像头录制了5166段视频,涵盖1722个物体实例,分布于瓶子、碗、相机、笔记本电脑和杯子五个类别。视频由不同用户在多样背景场景下拍摄,确保了实例与环境的广泛多样性。为高效标注测试集,研究者设计了基于跟踪的标注流程,仅需对关键帧进行手动标注,随后通过TEASER++与彩色ICP算法自动推算后续帧的姿态,显著降低了标注成本。
特点
Wild6D数据集的核心特点在于其规模与真实性的大幅提升。相较于先前同类数据集,Wild6D在图像数量上扩展了约300倍,提供了超过110万帧RGBD图像,且所有数据均采集自真实环境,背景复杂多变。数据集包含丰富的物体实例,每个实例在三种不同场景下录制视频,增强了模型对未见实例的泛化能力。此外,数据集提供了精确的深度信息,避免了仅依赖RGB数据可能带来的姿态歧义。这些特性共同使Wild6D成为当前最大规模的野外环境RGBD姿态估计基准,为推进类别级6D姿态估计研究提供了关键数据支撑。
使用方法
Wild6D数据集主要用于支持半监督学习框架下的类别级6D物体姿态估计研究。典型的使用方法是结合合成数据(如CAMERA25)与Wild6D的无标注真实数据,共同训练如RePoNet之类的模型。在训练过程中,合成数据提供完整的姿态标注监督,而Wild6D的数据则通过轮廓匹配损失进行学习,即利用可微分渲染模块生成物体掩码,并与Mask R-CNN获取的前景分割进行比较以优化网络。在推理阶段,模型仅需输入RGBD图像,通过姿态网络预测NOCS映射,再经由Umeyama算法解算出最终的6D姿态参数。该使用方法显著降低了对真实数据3D标注的依赖,使模型能够有效泛化至复杂多变的野外场景。
背景与挑战
背景概述
在计算机视觉与机器人研究领域,6D物体姿态估计作为基础性问题,旨在预测物体在三维空间中的旋转、平移与尺寸。然而,传统方法多局限于特定实例或受限于标注数据的稀缺性,难以泛化至真实复杂场景。为此,加州大学圣地亚哥分校的研究团队于2022年推出了Wild6D数据集,专注于类别级6D姿态估计的野外泛化。该数据集包含超过110万幅RGBD图像,涵盖5个类别的1722个物体实例,通过半监督学习框架RePoNet,有效融合合成数据与无标注真实视频,显著提升了模型在多样化环境中的适应能力,为姿态估计研究提供了关键数据支撑。
当前挑战
Wild6D数据集致力于解决类别级6D姿态估计在真实场景中的泛化挑战,其核心问题在于如何克服物体外观与形状的显著差异,以及标注数据匮乏导致的模型受限。构建过程中,研究人员面临两大难题:其一,真实世界6D姿态标注极为耗时费力,需设计高效的追踪式标注流程以处理海量视频数据;其二,现有数据集中深度信息缺失或场景多样性不足,难以支撑模型在复杂背景下的精确学习,这要求数据集在采集时兼顾RGBD信息的完整性与实例、环境的广泛代表性。
常用场景
经典使用场景
在计算机视觉与机器人学领域,Wild6D数据集为类别级6D物体姿态估计研究提供了关键支持。该数据集通过采集包含多样实例与背景的未标注RGBD视频,构建了一个大规模的真实世界场景资源库。其经典使用场景主要体现在半监督学习框架中,研究者可借助合成数据的精确标注与真实数据的丰富多样性,联合训练姿态估计模型。这种设置使得模型能够有效泛化至复杂环境中的未知物体,突破了传统方法在有限标注数据下的性能瓶颈。
实际应用
在实际应用层面,Wild6D数据集为增强现实、机器人抓取与自主导航等场景提供了关键技术支撑。在增强现实中,精确的物体姿态估计可实现虚拟对象与真实环境的稳定贴合;在机器人领域,它助力机械臂对家庭日常用品进行可靠抓取与操作。数据集涵盖的瓶、碗、相机、笔记本电脑和杯子等常见类别,直接对应家居与服务机器人的典型交互对象。通过利用该数据集训练的模型,系统能够在非结构化环境中实时推断物体的三维位置、朝向与尺寸,显著提升了智能设备在复杂场景下的感知与交互能力。
衍生相关工作
Wild6D数据集的发布催生了一系列围绕半监督与自监督学习的类别级姿态估计研究。以RePoNet为代表的衍生工作,创新性地结合了可微分渲染与轮廓匹配目标函数,实现了无需真实标注的端到端训练。后续研究在此基础上进一步探索了形状先验的优化、跨域自适应以及多模态融合等方向。这些工作不仅延续了Wild6D降低标注依赖的核心思想,还拓展了其在动态场景、遮挡处理及新类别泛化等方面的应用边界,共同推动了6D姿态估计领域向更高效、更鲁棒的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作