Yinxuan/OCTScenes

Name: Yinxuan/OCTScenes
Creator: Yinxuan
Published: 2023-12-07 13:32:45
License: 暂无描述

Hugging Face2023-12-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Yinxuan/OCTScenes

下载链接

链接失效反馈

官方服务：

资源简介：

OCTScenes数据集是一个用于对象中心学习的多功能真实世界数据集，包含5000个桌面场景，每个场景包含60帧图像，覆盖360度视角。数据集提供了三种不同分辨率的图像，并包含RGB图像、深度图、相机内参矩阵、相机姿态和分割图。数据集分为两个子集OCTScenes-A和OCTScenes-B，分别包含不同数量的场景和对象类型。OCTScenes-A包含3200个场景，涵盖11种对象类型，每个场景包含1到6个对象；OCTScenes-B包含5000个场景，涵盖15种对象类型，每个场景包含1到10个对象。数据集的创建过程包括使用三轮全向轮机器人配备Orbbec Astra 3D相机进行数据收集，并使用EISeg和PaddleSeg工具进行分割注释。数据集的使用受到CC-BY-NC 4.0许可证的限制。

提供机构：

Yinxuan

原始信息汇总

OCTScenes 数据集概述

数据集描述

OCTScenes 数据集是一个多功能的真实世界桌面场景数据集，用于对象中心学习，包含 5000 个桌面场景，共 15 种对象。每个场景以 360 度视角捕捉 60 帧图像，适用于基于单图像、视频和多视角的对象中心学习方法的评估。

支持的任务和排行榜

对象中心学习：该数据集可用于训练模型进行对象中心学习，旨在无监督的方式下学习组合场景表示。模型的分割性能通过调整互信息（AMI）、调整兰德指数（ARI）和平均交并比（mIoU）来衡量。重建性能通过最小化平方误差（MSE）和学习感知图像块相似性（LPIPS）来衡量。

数据集结构

数据集提供三种不同分辨率的图像：640x480、256x256 和 128x128。每张图像的命名格式为 [scene_id]_[frame_id].png，分别存储在 ./640x480、./256x256 和 ./128x128 目录下。图像文件使用 tar 压缩，压缩文件名以分辨率开头，例如 image_128x128_。

数据实例

每个数据实例包含一个 RGB 图像、其深度图、相机内参矩阵、相机姿态和分割图（训练和验证集中的分割图为空）。

数据字段

scene_id：每个示例的字符串场景标识符
frame_id：每个示例的字符串帧标识符
resolution：每个示例的图像分辨率字符串（例如 640x480、256x256、128x128）
image：包含图像的 PIL.Image.Image 对象
depth：包含深度图的 PIL.Image.Image 对象
segment：包含分割图的 PIL.Image.Image 对象，每个像素的整数表示对象的索引（范围从 1 到 10，0 表示背景）
intrinsic_matrix：每个图像的相机内参矩阵 numpy.ndarray
camera_pose：每个图像的相机姿态 numpy.ndarray

数据分割

数据集分为两个子集，以创建不同难度级别的数据集。两个子集随机分为训练、验证和测试集。验证和测试集各包含 100 个场景，其余场景构成训练集。只有测试集中的数据包含分割注释以进行评估。

OCTScenes-A：包含 3200 个场景（scene_id 从 0000 到 3199），仅包含前 11 种对象类型，场景包含 1 到 6 个对象，相对较小且较简单。
OCTScenes-B：包含 5000 个场景（scene_id 从 0000 到 4999），包含所有 15 种对象类型，场景包含 1 到 10 个对象，较大且较复杂。

数据集创建

数据收集和归一化

使用配备 Orbbec Astra 3D 相机的三轮全方位轮式机器人进行数据收集。数据收集在一个学校会议室中进行，一个小木桌放置在地板上并被挡板包围。随机选择的 1 到 10 个对象手动放置在桌子上，没有堆叠。数据直接从这些视觉场景中收集。

注释

分割注释：使用 EISeg 进行交互式自动图像分割注释。手动标记每个场景的 6 张图像，并使用标记的图像训练监督实时语义分割模型 PP-LiteSeg，以注释剩余数据。
内参矩阵：通过相机标定获得相机内参矩阵。
相机姿态：通过使用 COLMAP 进行 3D 重建获得每个图像的相机姿态。

其他信息

数据集创建者

数据集由 Yinxuan Huang、Tonglin Chen、Zhimeng Shen、Jinghao Huang、Bin Li 和 Xiangyang Xue 创建，他们是复旦大学视觉智能实验室的成员。

许可信息

数据集在 CC-BY-NC 4.0 许可下提供。

引用信息

@article{huang2023octscenes, title={OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning}, author={Huang, Yinxuan and Chen, Tonglin and Shen, Zhimeng and Huang, Jinghao and Li, Bin and Xue, Xiangyang}, journal={arXiv preprint arXiv:2306.09682}, year={2023} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，面向对象中心学习的数据集构建需兼顾真实场景的多样性与标注的精确性。OCTScenes数据集的构建采用了一套系统化的采集与标注流程：通过搭载三维摄像头的全向轮机器人，在受控环境中对桌面场景进行多视角采集，每个场景包含60帧覆盖360度视角的图像。数据标注方面，结合了交互式半自动分割工具EISeg进行手动标注，并利用监督式实时语义分割模型PP-LiteSeg对剩余数据进行自动化标注，确保了分割掩码的高质量；相机内参矩阵通过标定获得，而相机位姿则借助三维重建工具COLMAP计算得出。

使用方法

在对象中心学习的研究与应用中，OCTScenes数据集提供了清晰的使用路径。研究者可通过HuggingFace平台获取数据集，并需注意图像文件以分卷压缩格式存储，需按说明合并并解压。数据加载后，可根据任务需求选择OCTScenes-A或OCTScenes-B子集，并利用其训练、验证和测试划分进行模型开发与评估。模型性能可通过调整互信息、调整兰德指数和平均交并比等指标衡量分割质量，同时使用均方误差和感知相似性指标评估重建效果。数据集中丰富的相机几何信息也为神经辐射场等三维视觉任务提供了支持。

背景与挑战

背景概述

在计算机视觉领域，无监督物体中心学习旨在从复杂场景中自动分解并理解独立物体，是迈向通用场景理解的关键一步。OCTScenes数据集由复旦大学视觉智能实验室于2023年创建，核心研究问题聚焦于为这一前沿方向提供真实、多模态的桌面场景基准。该数据集包含5000个场景，每个场景提供60帧多视角的RGB图像、深度图、分割标注及相机参数，涵盖了15类常见物体，支持单图像、视频与多视角下的模型评估。其出现填补了真实世界物体中心学习数据资源的稀缺，推动了 compositional scene representation 等方向的方法创新与验证。

当前挑战

OCTScenes致力于解决物体中心学习在真实场景中面临的挑战，核心在于如何让模型在无监督条件下，从多视角图像中准确分解、表征及重建相互遮挡的物体。具体挑战包括物体外观因视角变化而产生的形变、复杂背景干扰下的实例分割精度、以及从稀疏观测中推断完整三维几何的困难。在构建过程中，数据采集需确保多视角覆盖的完整性与标定精度，而大规模分割标注则依赖交互式工具与半自动模型，在保证标注质量（mIoU达0.92）的同时，需平衡人工成本与效率。此外，数据集的场景相对简单，背景单一且物体形状多对称，限制了模型学习更丰富的外观与结构变化。

常用场景

经典使用场景

在计算机视觉领域，以物体为中心的学习旨在从复杂场景中解耦出独立的对象表征。OCTScenes数据集以其真实桌面场景的多视角图像、深度图及分割标注，为这一研究方向提供了经典评估基准。该数据集支持单图像、视频序列及多视角输入下的模型训练与验证，研究者常利用其丰富的几何与语义信息，开发无监督或弱监督的物体发现与分割算法，推动场景理解向更细粒度的对象层级演进。

解决学术问题

OCTScenes的构建直接回应了物体中心学习中真实世界数据匮乏的瓶颈。该数据集通过提供精确的相机位姿、深度信息及像素级分割标注，使研究者能够系统评估模型在复杂真实环境下的分解能力。它有效解决了多物体遮挡、视角变化下的表征学习难题，并为衡量模型在调整互信息、调整兰德指数等指标上的性能提供了可靠标准，从而促进了无监督场景解耦理论的发展与验证。

实际应用

超越纯学术探索，OCTScenes在机器人视觉与增强现实领域展现出实用价值。机器人可利用该数据集训练视觉系统，在杂乱桌面环境中精准识别与定位各类物体，进而完成抓取、整理等任务。同时，其多视角与深度数据为AR应用中的物体三维重建与虚实融合提供了训练素材，助力开发更智能的交互系统，推动视觉技术在现实场景中的落地与普及。

数据集最近研究