COLE-Ricoh/ToF-360
收藏ToF-360 数据集
概述
ToF-360 数据集包含具有实例级语义和房间布局注释的球形 RGB-D 图像,涵盖 4 个独特的场景。该数据集包含 179 张等距柱状 RGB 图像及其对应的深度、表面法线、XYZ 图像和 HHA 图像,标记了建筑定义对象类别和基于图像的布局边界(天花板-墙、墙-地板)。该数据集支持基于单次重建的场景理解任务,无需室内空间的全局对齐。
数据集模态
每个场景在数据集中都有自己的文件夹。每个区域的模态都包含在该文件夹中,格式为 <场景>/<模态>。
RGB 图像:
RGB 图像包含等距柱状的 24 位彩色图像,由传感器拍摄的原始双鱼眼图像转换而来。
曼哈顿对齐的 RGB 图像:
我们遵循 [LGT-Net] 提出的预处理代码创建曼哈顿对齐的 RGB 图像。数据集的示例代码位于 assets/preprocessing/align_manhattan.py。
深度图像:
深度图像存储为 16 位灰度 PNG 图像,最大深度为 128 米,灵敏度为 1/512 米。缺失值用 0 表示。注意,深度定义为从相机点中心到全景图中的点的距离。
XYZ 图像:
XYZ 图像保存为 NumPy 的 .npy 二进制文件格式,包含空间中像素对齐的数据点集,灵敏度为毫米。其大小必须为 (高度, 宽度, 3[xyz])。
法线图像:
法线是每通道表面法线图像,以 127.5 为中心。法线向量保存为 24 位 RGB PNG 图像,其中红色表示水平值(越红向右),绿色表示垂直值(越绿向下),蓝色表示朝向相机。法线是通过 Open3D 中的 法线估计函数 计算的。从 3D 创建法线图像的工具位于 assets/preprocessing/depth2normal.py。
HHA 图像:
HHA 图像包含水平视差、离地高度和与重力角度的信息。我们遵循 Depth2HHA-python 创建它。代码位于 assets/preprocessing/getHHA.py。
注释:
我们使用 COCO Annotator 对 RGB 数据进行标注。我们遵循为 RGB-D 和点云数据开发的 基于本体的注释指南。<场景>/注释 包含 json 格式的文件,<场景>/语义 和 <场景>/实例 包含保存为 .npy 二进制文件的图像类标注数据。
房间布局注释:
房间布局注释以与 PanoAnnotator 相同的 json 格式存储。有关更多详细信息,请参阅该仓库。




