Objectron
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/google-research-datasets/objectron
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了15,000个以对象为中心的视频,这些视频通过360°的摄像机移动捕捉了具有复杂背景的现实世界物体。覆盖了九个大类的物体。规模达到了15,000个视频,任务是对3D物体进行编辑。
This dataset contains 15,000 object-centric videos that capture real-world objects with complex backgrounds via 360° camera movements, covering nine major object categories. With a total of 15,000 video samples, the dataset is designed for 3D object editing tasks.
搜集汇总
数据集介绍

构建方式
Objectron数据集由Google研究团队构建,旨在推动3D物体检测领域的发展。数据采集基于移动设备上的增强现实(AR)会话,如ARKit和ARCore,通过摄像头围绕静止物体多角度拍摄,记录视频、相机位姿、稀疏点云和表面平面。视频分辨率为1440×1920,帧率30fps,时长约10秒,覆盖10个国家共5大洲的多样化地理环境。标注采用高效的视频级3D边界框方法:标注员在3D世界地图中绘制边界框,利用AR会话预计算的相机位姿自动投影到所有帧,并调整位置、方向和尺度以确保一致性,从而以较低成本获得4百万张标注图像和14819个标注视频,涵盖自行车、书籍、瓶子等9个类别。
特点
Objectron数据集具有显著特点:首先,视频以物体为中心,提供多视角信息,支持3D物体检测、跟踪、视角合成和形状重建等任务。其次,3D边界框标注在整段视频中保持时间一致性,适用于3D跟踪应用。第三,数据在真实世界环境中采集,而非受控实验室,增强了泛化能力。第四,所有平移和尺寸均以公制尺度存储,得益于AR跟踪的精确性,并提供稀疏点云和相机参数,可恢复物体真实尺度。第五,标注密集且连续,不同于离散化的视角标注。此外,每个类别包含数百个实例,来自不同国家、光照条件,且非刚性物体(如自行车、笔记本电脑)在视频中保持静止,对称物体(如杯子、瓶子)被特意纳入以挑战旋转估计。
使用方法
Objectron数据集的使用方法灵活多样。原始数据以MOV视频文件、AR元数据(含相机变换、投影、内参矩阵)和标注结果(含边界框方向、平移、尺度及3D/2D关键点)形式提供,可从Google存储桶公开访问。预处理的TensorFlow tf.Example和tf.SequenceExample格式便于直接接入现有训练管道,支持PyTorch、TensorFlow和Jax框架。配套评估代码计算3D IoU、2D投影误差、视角误差等指标,其中3D IoU采用Sutherland-Hodgman多边形裁剪算法精确计算,对对称物体沿对称轴旋转以最大化IoU。基线模型包括MobilePose和两阶段网络(SSD检测+EfficientNet-Lite回归),均可实现移动设备实时性能,用户可基于此进行模型训练和基准测试。
背景与挑战
背景概述
三维物体检测作为计算机视觉领域的前沿研究方向,在机器人操作、增强现实、自动驾驶及图像检索等应用中扮演着关键角色。然而,相较于二维视觉任务中丰富的大规模真实世界数据集(如ImageNet、COCO),三维物体理解领域长期受限于高质量标注数据的匮乏。为弥合这一鸿沟,Google Research团队于2020年发布了Objectron数据集,由Adel Ahmadyan、Liangkai Zhang等研究人员主导构建。该数据集以物体为中心,收录了来自五大洲十个国家的14,819段短视频,涵盖自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子共九类日常物品,总计包含400万张带有精确三维边界框标注的图像。每个视频片段均伴随增强现实会话元数据,包括相机位姿、稀疏点云及表面平面信息,为多视角几何理解、视图合成及三维形状重建等下游任务提供了坚实基础。Objectron的推出显著推动了三维物体检测技术的发展,其提供的基线模型与创新的三维交并比评估指标,已成为领域内重要的参考基准。
当前挑战
Objectron数据集所解决的领域问题核心在于三维物体检测与姿态估计,这一任务面临多重挑战。首先,真实世界场景中物体外观、光照条件及背景的多样性要求模型具备强大的泛化能力,而现有数据集多局限于受控环境,难以满足实际应用需求。其次,对称物体(如杯子、瓶子)的旋转估计存在歧义性,传统方法难以准确捕捉其姿态;非刚体类别(如自行车、笔记本电脑)则因形变特性增加了建模复杂度。在数据构建过程中,挑战同样显著:利用移动设备AR库进行大规模采集时,需确保相机位姿估计的精度与一致性,视频长度需控制在10秒以内以抑制漂移误差;三维边界框的标注依赖人工在三维世界地图中绘制并跨帧验证,流程繁琐且需保证不同标注者间的一致性,实验表明椅子类别的方位角标注标准差仅为4.6°,体现了对标注质量的严苛要求。此外,包含文字标签的类别(如书籍、麦片盒)因多语言环境导致纹理模式差异巨大,进一步提升了姿态估计的难度。
常用场景
经典使用场景
Objectron数据集以其大规模、以物体为中心的真实世界视频片段为核心特色,广泛应用于三维物体检测与姿态估计任务。研究者利用该数据集提供的九类常见物体(如自行车、书籍、瓶子、相机等)的密集标注信息,包括三维边界框、相机位姿及稀疏点云,训练和评估深度学习模型在复杂场景下对物体位置、朝向和尺寸的预测能力。其视频序列中多视角覆盖的特性,使模型能够学习到物体在不同角度下的几何结构,从而提升三维检测的鲁棒性和泛化性能。
解决学术问题
该数据集有效填补了真实世界三维物体理解领域大规模标注数据的空白,解决了以往数据集多局限于受控环境或缺乏连续姿态标注的难题。它推动了三维物体检测从二维投影向全自由度(9自由度)空间推理的跨越,并提出了精确的三维交并比(3D IoU)评估指标,解决了对称物体姿态评估中的歧义性问题。通过提供地理多样性和真实光照条件下的样本,Objectron显著增强了模型在复杂现实场景中的泛化能力,为三维视觉研究奠定了坚实的基准。
衍生相关工作
基于Objectron数据集,学术界衍生出一系列经典工作,包括两阶段三维目标检测架构(结合SSD与EfficientNet-Lite实现高效检测)以及MobilePose等轻量级实时姿态估计模型。这些工作利用数据集的视频序列特性,探索了多视角几何理解、三维形状重建和物体跟踪等方向。此外,研究者还借鉴其三维IoU计算算法,改进了对称物体姿态评估方法,并推动了从二维关键点回归到三维空间映射的EPnP算法在移动设备上的优化应用。
以上内容由遇见数据集搜集并总结生成



