DA2: Depth Anything in Any Direction

Name: DA2: Depth Anything in Any Direction
Creator: 腾讯混元, 加州大学圣地亚哥分校, 香港科技大学
Published: 2025-10-01 01:55:37
License: 暂无描述

arXiv2025-10-01 更新2025-11-20 收录

下载链接：

https://hf-mirror.com/datasets/haodongli/DA-2

下载链接

链接失效反馈

官方服务：

资源简介：

DA2数据集是由腾讯混元、加州大学圣地亚哥分校和香港科技大学联合创建的，旨在解决全景图像深度估计问题。该数据集包含了约607,000对全景RGB深度图像，是通过将大量的透视图像转换为全景图像生成的。数据集的创建过程包括透视到等距圆柱投影的转换以及全景图像的补全。DA2数据集的应用领域包括全景多视图重建、家居装饰和机器人模拟等，旨在提供高质量的三维深度信息，推动全景应用场景的发展。

The DA2 dataset was jointly developed by Tencent Hunyuan, University of California, San Diego, and Hong Kong University of Science and Technology, with the core goal of solving the problem of panoramic image depth estimation. It contains approximately 607,000 pairs of panoramic RGB-depth images, which are generated by converting a large volume of perspective images into panoramic formats. The construction of this dataset involves two key steps: perspective-to-equirectangular projection transformation and panoramic image inpainting. The DA2 dataset can be applied in multiple fields including panoramic multi-view reconstruction, home decoration, and robotic simulation, and it is designed to provide high-quality 3D depth information to boost the development of panoramic application scenarios.

提供机构：

腾讯混元, 加州大学圣地亚哥分校, 香港科技大学

创建时间：

2025-10-01

搜集汇总

数据集介绍

构建方式

在360度全景视觉领域，数据稀缺长期制约着深度估计算法的泛化能力。DA2数据集通过创新的全景数据构建引擎，将大规模透视图像深度数据转化为高质量全景样本。该流程首先对透视图像进行球面投影映射，生成部分覆盖球面的初始全景图；随后采用基于FLUX-I2P的智能外绘技术，补全缺失的视觉内容形成完整全景。深度真值仅通过几何投影保留原始精度，最终构建出包含约60万样本的大规模全景RGB-深度配对数据集。

使用方法

该数据集专为训练全景深度估计模型设计，支持端到端的监督学习流程。研究者可将全景图像输入SphereViT架构，通过交叉注意力机制融合球面坐标嵌入特征。训练时采用联合损失函数，结合距离损失保障全局几何精度，辅以法向量损失优化局部表面连续性。评估阶段需在三大标准基准数据集上进行零样本测试，通过中值对齐后计算绝对相对误差等指标，验证模型在未见过场景中的几何重建能力。

背景与挑战

背景概述

全景深度估计作为计算机视觉领域的重要分支，旨在从360度全景图像中恢复三维几何信息，为增强现实、虚拟现实和机器人导航等应用提供关键支持。DA2数据集由腾讯混元、加州大学圣地亚哥分校和香港科技大学等机构的研究团队于2025年联合创建，其核心突破在于通过大规模全景数据生成引擎，将约54.3万组透视图像转化为全景深度样本，显著提升了全景深度估计的零样本泛化能力。该数据集通过引入球面视觉Transformer架构，有效解决了全景图像固有的球面畸变问题，在斯坦福2D3D等权威基准测试中实现了38%的平均性能提升，推动了沉浸式三维场景重建技术的发展。

当前挑战

全景深度估计面临双重挑战：在领域问题层面，传统方法因全景数据稀缺而局限于域内设定，导致零样本泛化能力薄弱，难以适应复杂多变的真实场景；在构建过程中，球面投影固有的几何畸变使得标准卷积网络难以有效建模，而透视图像向全景空间的转换需解决视野覆盖不完整与空间一致性保持的难题。此外，数据生成引擎需平衡深度图精度与全景外绘制的真实性，避免因生成误差导致三维重建失真。

常用场景

经典使用场景

在三维视觉领域，全景深度估计因其360°×180°全视场特性而备受关注。DA2数据集通过大规模全景数据生成引擎和球形感知的SphereViT架构，为单张全景图像提供密集距离预测，显著提升了零样本泛化能力。该数据集在室内外场景中展现出卓越的几何保真度，成为全景深度估计任务中的基准数据源，广泛应用于三维重建、虚拟现实等需要完整空间感知的研究场景。

解决学术问题

DA2数据集有效解决了全景深度估计中因数据稀缺导致的零样本泛化不足问题。通过将透视数据转化为高质量全景样本，数据规模扩展至约60万对，突破了传统方法对特定域的依赖。同时，SphereViT架构通过球形坐标嵌入显式建模全景图像的几何畸变，显著提升了模型在未知场景下的距离预测精度，为跨域三维几何理解提供了可靠的理论与实践基础。

实际应用

该数据集支撑的实际应用涵盖沉浸式视觉交互与空间计算领域。在增强现实与虚拟现实中，DA2生成的高精度全景深度图可用于构建无缝的室内外三维环境；在机器人仿真领域，其重建的点云为路径规划与物理模拟提供真实空间参照；家居装饰行业则利用分层三维重建技术，实现虚拟空间设计与实景融合，显著提升了数字化改造的效率和用户体验。

数据集最近研究