Objectron

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/Objectron

下载链接

链接失效反馈

官方服务：

资源简介：

Objectron是一个包含短的对象中心视频片段的数据集，每个视频片段都伴随有AR会话元数据，包括相机姿态、稀疏点云和平面。数据集包含约15K个标注视频片段和4M个标注图像，涵盖自行车、书籍、瓶子、相机、谷物盒、椅子、杯子、笔记本电脑和鞋子等多个类别。此外，数据集还提供了3D对象检测解决方案，用于鞋、椅、杯和相机四个类别的对象。

Objectron is a dataset comprising short object-centric video clips, each accompanied by AR session metadata, including camera poses, sparse point clouds, and planes. The dataset contains approximately 15K annotated video clips and 4M annotated images, covering multiple categories such as bicycles, books, bottles, cameras, cereal boxes, chairs, cups, laptops, and shoes. Additionally, the dataset provides 3D object detection solutions for objects in four categories: shoes, chairs, cups, and cameras.

创建时间：

2020-10-20

原始信息汇总

数据集概述

数据集名称

Objectron Dataset

数据集描述

Objectron是一个包含短对象中心视频片段及其姿态标注的集合。每个视频中，相机围绕对象移动，从不同角度捕捉对象。数据集包含15,000个标注视频和超过400万标注图像，涵盖以下类别：自行车、书籍、瓶子、相机、谷物盒、椅子、杯子、笔记本电脑和鞋子。此外，为确保地理多样性，数据集从全球10个国家收集。

关键特性

包含15,000个标注视频和400万标注图像
所有样本包含高分辨率图像、对象姿态、相机姿态、点云和平面
提供多种tf.record格式的即用示例，适用于TensorFlow/PyTorch
对象中心多视角，从不同角度观察同一对象
精确的评估指标，如用于定向3D边界框的3D IoU

数据集格式

数据存储在Google Cloud存储的objectron桶中。数据集包括：

视频序列
包含3D边界框的对象标注标签
AR元数据，如相机姿态、点云和平面表面
处理后的数据集，包括分片和洗牌的tf.records和视频的tf.SequenceExample格式
支持脚本，用于基于3D IoU的评估和数据加载

数据集大小

原始数据集大小为1.9TB，总数据集大小为4.4TB。

类别统计

类别	视频数量	帧数
自行车	476	150k
书籍	2024	576k
瓶子	1928	476k
相机	815	233k
谷物盒	1609	396k
椅子	1943	488k
杯子	2204	546k
笔记本电脑	1473	485k
鞋子	2116	557k

教程

数据集下载
TensorFlow示例加载
PyTorch数据加载
原始标注文件解析
AR元数据解析
模型性能评估（3D IoU）
SequenceExample教程
NeRF模型训练

许可证

Objectron数据集根据Computational Use of Data Agreement 1.0 (C-UDA-1.0)发布。

搜集汇总

数据集介绍

构建方式

Objectron数据集的构建基于对多种日常物品的细致捕捉与标注。该数据集包含了15,000个经过标注的视频片段，每个片段均附有增强现实（AR）会话的元数据，包括相机姿态、稀疏点云和平面特征。此外，每个视频中的物体都经过人工标注，提供了精确的3D边界框，涵盖了位置、方向和尺寸信息。数据集的多样性通过从五大洲的10个国家收集数据得以体现，确保了地理分布的广泛性。

使用方法

使用Objectron数据集时，用户可以通过Google Cloud Storage中的objectron存储桶访问数据。数据集提供了详细的教程，指导用户如何下载和解析数据，包括视频序列、标注文件和AR元数据。此外，数据集还提供了支持脚本，用于在Tensorflow、Jax和Pytorch中加载数据，并进行可视化展示。这些资源使得研究人员能够轻松地将数据集集成到其模型训练和评估流程中。

背景与挑战

背景概述

Objectron数据集是由Google研究团队创建的一个大规模对象中心视频数据集，旨在推动三维对象检测和姿态估计的研究。该数据集包含了15,000个标注视频片段和超过400万个标注图像，涵盖了九种常见对象类别，如自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子。数据集的独特之处在于其包含了AR会话元数据，包括相机姿态、稀疏点云和平面表面特征，以及手动标注的三维边界框，这些信息为对象的位置、方向和尺寸提供了精确描述。此外，数据集的采集跨越了五大洲的10个国家，确保了地理多样性，从而增强了模型的泛化能力。Objectron数据集的发布不仅为三维对象检测领域提供了丰富的资源，还通过开源的MediaPipe框架，提供了针对鞋子、椅子、杯子和相机四类对象的3D对象检测解决方案，极大地推动了相关领域的研究进展。

当前挑战

尽管Objectron数据集在三维对象检测领域具有显著的影响力，但其构建和使用过程中仍面临诸多挑战。首先，数据集的规模庞大，包含1.9TB的原始数据和4.4TB的总数据量，这给数据存储、处理和传输带来了巨大的技术挑战。其次，数据集的标注过程复杂，需要精确的三维边界框标注，这不仅耗时且成本高昂。此外，数据集的多样性虽然增强了模型的泛化能力，但也增加了数据处理的复杂性，尤其是在处理不同光照条件、背景和对象姿态时。最后，数据集的评估指标如3D IoU（Intersection over Union）虽然提供了精确的评估方法，但在实际应用中如何平衡精度和计算效率仍是一个亟待解决的问题。这些挑战不仅影响了数据集的使用效率，也对相关研究提出了更高的要求。

常用场景

经典使用场景

在计算机视觉领域，Objectron数据集的经典使用场景主要集中在三维物体检测与姿态估计。该数据集通过提供多视角的视频片段，使得研究人员能够训练和评估模型在不同视角下对物体三维姿态的识别能力。例如，通过分析视频中的相机移动轨迹和物体在不同视角下的表现，可以构建出精确的三维物体模型，这对于增强现实（AR）和虚拟现实（VR）应用中的物体识别与交互具有重要意义。

解决学术问题

Objectron数据集解决了计算机视觉领域中三维物体检测与姿态估计的关键学术问题。传统的二维图像数据集难以提供足够的信息来准确估计物体的三维姿态，而Objectron通过提供多视角的视频片段和详细的AR元数据，填补了这一空白。这不仅推动了三维物体检测算法的发展，还为研究者提供了一个标准化的评估平台，从而促进了相关领域的技术进步。

实际应用

在实际应用中，Objectron数据集被广泛用于开发和优化增强现实（AR）和虚拟现实（VR）系统。例如，在AR应用中，通过使用Objectron数据集训练的模型，可以实现对现实世界中物体的精确识别和姿态估计，从而提供更加沉浸和交互式的用户体验。此外，该数据集还可用于机器人视觉系统，帮助机器人更好地理解和操作周围环境中的物体。

数据集最近研究