COLE-Ricoh/ToF-360

Name: COLE-Ricoh/ToF-360
Creator: COLE-Ricoh
Published: 2024-06-17 15:33:18
License: 暂无描述

Hugging Face2024-06-17 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/COLE-Ricoh/ToF-360

下载链接

链接失效反馈

官方服务：

资源简介：

ToF-360数据集由包含实例级语义和房间布局注释的球形RGB-D图像组成，包含4个独特的场景。数据集包含179个等距圆柱投影的RGB图像及其对应的深度、表面法线、XYZ图像和HHA图像，这些图像被标记了建筑定义的对象类别和基于图像的布局边界（天花板-墙，墙-地板）。数据集支持基于单次重建的场景理解任务，无需在室内空间中进行全局对齐。数据集的各种模态包括RGB图像、曼哈顿对齐的RGB图像、深度图像、XYZ图像、法线图像和HHA图像，每种模态都有详细的存储格式和预处理方法。数据集还提供了注释和房间布局注释，使用了COCO Annotator和PanoAnnotator工具进行标注。

The ToF-360 dataset consists of spherical RGB-D images with instance-level semantic and room layout annotations, which include 4 unique scenes. It contains 179 equirectangular RGB images along with the corresponding depths, surface normals, XYZ images, and HHA images, labeled with building-defining object categories and image based layout boundaries (ceiling-wall, wall-floor). The dataset enables development of scene understanding tasks based on single-shot reconstruction without the need for global alignment in indoor spaces. The dataset modalities include RGB images, Manhattan aligned RGB images, depth images, XYZ images, normal images, and HHA images, each with detailed storage formats and preprocessing methods. The dataset also provides annotations and room layout annotations, using COCO Annotator and PanoAnnotator tools for labeling.

提供机构：

COLE-Ricoh

原始信息汇总

ToF-360 数据集

概述

ToF-360 数据集包含具有实例级语义和房间布局注释的球形 RGB-D 图像，涵盖 4 个独特的场景。该数据集包含 179 张等距柱状 RGB 图像及其对应的深度、表面法线、XYZ 图像和 HHA 图像，标记了建筑定义对象类别和基于图像的布局边界（天花板-墙、墙-地板）。该数据集支持基于单次重建的场景理解任务，无需室内空间的全局对齐。

数据集模态

每个场景在数据集中都有自己的文件夹。每个区域的模态都包含在该文件夹中，格式为 <场景>/<模态>。

RGB 图像：
RGB 图像包含等距柱状的 24 位彩色图像，由传感器拍摄的原始双鱼眼图像转换而来。

曼哈顿对齐的 RGB 图像：
我们遵循 [LGT-Net] 提出的预处理代码创建曼哈顿对齐的 RGB 图像。数据集的示例代码位于 assets/preprocessing/align_manhattan.py。

深度图像：
深度图像存储为 16 位灰度 PNG 图像，最大深度为 128 米，灵敏度为 1/512 米。缺失值用 0 表示。注意，深度定义为从相机点中心到全景图中的点的距离。

XYZ 图像：
XYZ 图像保存为 NumPy 的 .npy 二进制文件格式，包含空间中像素对齐的数据点集，灵敏度为毫米。其大小必须为 (高度, 宽度, 3[xyz])。

法线图像：
法线是每通道表面法线图像，以 127.5 为中心。法线向量保存为 24 位 RGB PNG 图像，其中红色表示水平值（越红向右），绿色表示垂直值（越绿向下），蓝色表示朝向相机。法线是通过 Open3D 中的法线估计函数计算的。从 3D 创建法线图像的工具位于 assets/preprocessing/depth2normal.py。

HHA 图像：
HHA 图像包含水平视差、离地高度和与重力角度的信息。我们遵循 Depth2HHA-python 创建它。代码位于 assets/preprocessing/getHHA.py。

注释：
我们使用 COCO Annotator 对 RGB 数据进行标注。我们遵循为 RGB-D 和点云数据开发的基于本体的注释指南。<场景>/注释 包含 json 格式的文件，<场景>/语义 和 <场景>/实例 包含保存为 .npy 二进制文件的图像类标注数据。

房间布局注释：
房间布局注释以与 PanoAnnotator 相同的 json 格式存储。有关更多详细信息，请参阅该仓库。

搜集汇总

数据集介绍

构建方式

在室内三维重建领域，ToF-360数据集通过单次全景捕获技术构建而成。研究团队利用配备双鱼眼传感器的设备采集原始RGB图像，并转换为等距柱状投影格式。深度数据源自时间飞行（ToF）传感器，以16位灰度PNG存储，最大探测距离达128米。表面法线图像通过Open3D库的估计算法从三维点云中推导，而XYZ图像则保存为毫米级精度的NumPy数组。语义与实例标注遵循基于本体的标注规范，借助COCO Annotator工具完成；房间布局注释则兼容PanoAnnotator的JSON格式，确保了标注的一致性与可扩展性。

特点

该数据集的核心特征在于其全景多模态数据的集成性。它囊括了179张等距柱状RGB图像，并同步提供深度、表面法线、XYZ坐标及HHA（水平视差、高度与重力角）图像，形成了丰富的场景表征。数据集涵盖4个独特室内场景，每个场景均附带实例级语义标注与房间布局边界（如天花板-墙壁、墙壁-地板），支持无需全局对齐的单次捕获三维重建任务。数据以场景文件夹组织，各模态文件结构清晰，并包含曼哈顿对齐的RGB图像预处理版本，为室内场景理解研究提供了高一致性的基准资源。

使用方法

使用该数据集时，研究人员可从HuggingFace平台直接访问，并依据Croissant元数据规范进行加载。数据按场景文件夹分层存储，用户可通过提供的预处理脚本（如`assets/preprocessing/`中的Python代码）生成对齐RGB、法线或HHA图像。标注文件以JSON和NumPy格式提供，支持语义分割、实例识别及房间布局解析等任务。评估工具集成于`assets/`目录，便于模型性能验证。在学术应用中，需引用相关论文，并遵循CC-BY-NC-SA-4.0许可协议，确保非商业性使用与共享的一致性。

背景与挑战

背景概述

在室内场景理解与三维重建领域，全景RGB-D数据因其能够一次性捕获完整环境信息而备受关注。由德国人工智能研究中心（DFKI）与理光公司联合创建的ToF-360数据集，于2025年正式发布，旨在推动基于单次拍摄的室内语义三维重建研究。该数据集通过整合球面RGB图像、深度信息、表面法线及HHA特征等多模态数据，并辅以实例级语义标注与房间布局注释，为开发无需全局对齐的快速重建算法提供了关键资源。其核心研究问题聚焦于克服传统多视角重建的复杂性，实现高效、精确的室内场景解析，对计算机视觉与机器人感知领域具有显著的推动作用。

当前挑战

ToF-360数据集致力于解决室内语义三维重建中单次捕获全景数据的挑战，其核心问题在于如何从单一球面RGB-D图像中准确推断场景的几何结构与语义信息，这要求模型在缺乏多视角约束的情况下，有效融合颜色、深度及空间特征。在构建过程中，研究人员面临多模态数据对齐与标注的复杂性，例如将原始双鱼眼图像转换为等距柱状投影，并确保深度、法线及HHA特征在像素级的一致性；同时，遵循本体论标注准则进行实例分割与布局边界标注，需克服全景图像中物体变形与遮挡带来的标注歧义，这些挑战共同塑造了数据集的严谨性与实用价值。

常用场景

经典使用场景

在室内场景理解领域，ToF-360数据集凭借其全景RGB-D图像与实例级语义标注，为单次捕获的语义三维重建任务提供了经典范例。该数据集通过融合等距柱状投影的RGB图像、深度信息、表面法线及HHA特征，使得研究人员能够在无需全局对齐的复杂室内环境中，直接进行场景的几何与语义解析。这种多模态数据的协同，尤其适用于开发端到端的深度学习模型，以实现在单一视角下对房间布局与物体实例的联合推断，推动了全景视觉感知技术的边界。

实际应用

在实际应用层面，ToF-360数据集支撑的技术在增强现实、机器人导航与智能家居系统中展现出巨大潜力。例如，在AR应用中，基于该数据集训练的模型能够快速理解室内环境的结构与物体类别，实现虚拟物体的精准放置与交互。对于家庭服务机器人，其提供的全景深度与语义信息有助于机器人进行避障、路径规划与任务执行。此外，在建筑信息模型与室内设计领域，该数据集可为自动化空间分析与方案生成提供数据基础，提升工作效率与智能化水平。

衍生相关工作

围绕ToF-360数据集，已衍生出若干聚焦于室内全景理解的前沿研究。相关工作借鉴了其数据构建范式，进一步探索了基于Transformer架构的多模态融合网络、自监督的几何表示学习等方法。部分研究则利用其提供的曼哈顿对齐RGB图像与布局标注，深化了对结构化室内场景的解析能力。这些工作不仅验证了数据集的实用价值，也共同推动了单次捕获三维语义重建这一技术方向的进展，为后续更高效、更鲁棒的场景理解模型奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集