Depth360

Name: Depth360
Creator: 早稻田大学科学与工程研究所
Published: 2022-02-16 19:56:31
License: 暂无描述

arXiv2022-02-16 更新2024-06-21 收录

下载链接：

https://github.com/HAL-lucination/segfuse

下载链接

链接失效反馈

官方服务：

资源简介：

Depth360数据集是由早稻田大学科学与工程研究所创建的大规模数据集，旨在解决单视图深度估计训练数据的稀缺问题。该数据集包含30,000条数据，通过利用互联网上的360度视频，采用测试时训练方法，结合独特的几何和时间约束，生成一致且令人信服的深度样本。Depth360数据集特别适用于单视图深度估计，尤其是在自主驾驶和场景重建等应用领域，旨在提高对环境理解的准确性。

The Depth360 dataset is a large-scale dataset developed by the Research Institute for Science and Engineering of Waseda University, which is designed to tackle the shortage of training data for single-view depth estimation tasks. It contains 30,000 data samples, which are generated by utilizing 360-degree videos sourced from the Internet, adopting test-time training methodologies, and integrating unique geometric and temporal constraints to produce consistent and credible depth samples. The Depth360 dataset is particularly well-suited for single-view depth estimation, especially in application domains such as autonomous driving and scene reconstruction, with the aim of enhancing the accuracy of environmental understanding.

提供机构：

早稻田大学科学与工程研究所

创建时间：

2022-02-16

搜集汇总

数据集介绍

构建方式

在全景视觉领域，单视图深度估计面临训练数据稀缺的挑战。Depth360数据集通过创新方法解决了这一问题，其构建过程充分利用了互联网上丰富的360度视频资源。研究团队提出了一种测试时训练方法，该方法基于几何与时间一致性约束，从每个全景序列中提取独特信息。具体而言，通过运动恢复结构和多视图立体技术获取相机姿态与稀疏深度，并引入球面视差模型计算几何损失，同时利用光流算法确保时间连续性。在预处理阶段，采用视觉SLAM框架估计相机运动，并利用实例分割排除动态前景干扰，最终通过反向传播微调预训练模型，为每个视频序列生成几何与时间一致的密集深度图，从而构建出包含三万对彩色图像与深度图的大规模数据集。

特点

Depth360数据集在360度深度估计领域展现出显著特点。其规模庞大且场景多样，涵盖了丰富的室外环境，突破了以往数据集中于室内场景的局限。数据生成过程强调几何与时间的一致性，通过球面视差模型和光流约束确保了深度图的连贯性与准确性。与现有合成或专用设备采集的数据集相比，Depth360源于真实世界的互联网视频，因而包含了动态前景和复杂光照条件，更贴近实际应用需求。数据分布呈现典型室外手持拍摄特征，深度值分布中存在天空、地面与中景物体的明显峰值，反映了真实场景的深度层次结构。这些特点使得该数据集能够有效支持模型在多样化场景下的泛化能力。

使用方法

Depth360数据集主要用于训练和评估单视图360度深度估计模型。研究人员可将数据集划分为训练集与验证集，以监督学习方式训练端到端的深度估计网络。数据集中提供的配对RGB图像与深度真值可直接用于计算深度回归损失，如逆Huber损失等。为充分发挥数据集价值，可结合SegFuse等多任务网络架构，利用其双分支设计同时学习全局深度与局部语义信息。在训练过程中，建议采用Adam优化器，并利用预训练权重初始化网络以加速收敛。此外，数据集还可用于基准测试，通过对比不同模型在标准深度评估指标上的表现，如绝对相对误差、均方根误差等，以量化评估算法性能。数据集的开源特性也便于社区进行扩展研究与跨领域应用探索。

背景与挑战

背景概述

全景图像的单目深度估计因其在自动驾驶和场景重建等领域的广泛应用而备受关注。Depth360数据集由早稻田大学与杜伦大学的研究团队于2022年联合创建，旨在解决该领域大规模训练数据稀缺的核心瓶颈。该数据集创新性地利用互联网海量全景视频资源，通过测试时训练方法生成几何与时间一致的深度样本，从而为单视图深度估计提供了首个涵盖多样化室外场景的大规模基准。其构建不仅推动了全景视觉几何理解的发展，也为后续算法研究奠定了至关重要的数据基础。

当前挑战

Depth360数据集致力于解决从单张全景图像中估计密集深度图这一病态问题，其核心挑战在于克服室外场景中深度范围剧烈变化、非对称分布以及尺度模糊性带来的学习困难。在构建过程中，研究团队面临两大主要挑战：一是如何从非受限的互联网视频中提取高质量且一致的深度真值，这涉及处理动态前景、纹理缺失区域以及视频帧间的不稳定性；二是如何设计有效的算法以利用全景内容特有的球面几何约束，避免传统透视模型因投影畸变导致的性能下降，从而生成可信的深度监督信号。

常用场景

经典使用场景

在全景视觉领域，单目深度估计是理解三维场景几何结构的关键任务，而Depth360数据集为这一领域提供了重要的数据支撑。该数据集最经典的使用场景在于训练和评估基于学习的单目全景深度估计算法，特别是在室外复杂环境中。通过提供大规模、多样化的真实世界全景图像与深度图配对数据，Depth360使得研究人员能够开发出泛化能力更强的模型，有效应对室外场景中深度分布不对称、尺度变化剧烈等挑战，从而推动全景深度感知技术从受控室内环境向开放室外环境的拓展。

衍生相关工作

Depth360数据集的发布催生并支撑了一系列相关的经典研究工作。其配套提出的SegFuse网络架构，作为一种模仿人眼视觉的双分支多任务学习模型，已成为全景深度估计领域的一个重要基线。该工作启发了后续研究对投影方式融合、多任务学习以及利用语义信息增强深度估计等方向的深入探索。此外，数据集本身也被广泛用于评估和比较OmniDepth、BiFuse、FCRN等前沿全景深度估计算法的性能，推动了整个领域在模型设计、损失函数构建以及训练策略上的持续进步，为构建更强大、更通用的全景视觉理解系统奠定了坚实基础。

数据集最近研究