AerialMegaDepth

Name: AerialMegaDepth
Creator: 卡内基梅隆大学
Published: 2025-04-18 01:57:05
License: 暂无描述

arXiv2025-04-18 更新2025-04-19 收录

下载链接：

https://aerial-megadepth.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

AerialMegaDepth数据集是由卡内基梅隆大学研究者创建的，该数据集结合了伪合成渲染和真实地面图像，旨在推进从地面和空中视角的图像中学习几何重建和视图合成任务。数据集通过将3D城市级网格的伪合成渲染与来自MegaDepth的真实地面级图像在统一坐标系中注册，包含了137个地标和132,137个地理注册图像。该数据集在具有挑战性的地面-空中场景中，显著提高了基于学习的方法在多视图几何预测和新型视图合成任务上的性能。

The AerialMegaDepth dataset was developed by researchers at Carnegie Mellon University. It combines pseudo-synthetic renderings and real ground-level images, aiming to advance geometric reconstruction and view synthesis tasks learned from images captured from both ground and aerial perspectives. The dataset registers pseudo-synthetic renderings of 3D city-scale grids with real ground-level images from MegaDepth in a unified coordinate system, containing 137 landmarks and 132,137 georegistered images. This dataset significantly enhances the performance of learning-based methods on multi-view geometry prediction and novel view synthesis tasks in challenging ground-aerial scenarios.

提供机构：

卡内基梅隆大学

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

AerialMegaDepth数据集的构建采用了创新的混合方法，结合了3D城市级网格的伪合成渲染与真实地面图像。通过Google Earth等地理空间平台生成高海拔视角的伪合成图像，同时利用MegaDepth等众包数据提供真实地面图像，确保数据在统一坐标系下的精准配准。构建过程中，首先从Google Earth渲染不同海拔和视角的图像，然后通过特征匹配和视觉定位技术将真实地面图像与伪合成图像对齐，最终形成包含132,137张图像的混合数据集。

特点

AerialMegaDepth数据集的核心特点在于其独特的跨视角（地面-空中）几何监督数据。数据集涵盖了137个地标的132K地理配准图像，包含伪合成空中图像和真实地面图像，并提供了深度图、点云和相机内外参数。其多样性体现在视角变化（海拔1米至350米）、光照条件和场景复杂性上，为处理极端视角变化的算法提供了丰富的训练素材。此外，数据集的混合性质有效弥合了真实图像与伪合成渲染之间的领域差距。

使用方法

该数据集主要用于训练和评估跨视角几何重建和视图合成算法。研究人员可以通过加载配对的空中-地面图像及其关联的几何数据（深度图、相机参数等）来训练模型。典型应用包括：1）使用DUSt3R等模型进行多视角几何预测的微调；2）基于ZeroNVS等框架的单图像条件化新视角合成。数据集还支持生成超过150万组空中-地面图像对，为算法在真实世界混合高度场景中的性能提升提供有力支持。

背景与挑战

背景概述

AerialMegaDepth数据集由卡内基梅隆大学的研究团队于2025年提出，旨在解决计算机视觉领域中极端视角变化下的几何重建问题。该数据集通过整合Google Earth的三维城市网格渲染与MegaDepth的真实地面图像，构建了一个包含13.7万张地理配准图像的混合数据集，覆盖137个地标场景。其创新性地采用伪合成渲染技术，在统一坐标系中实现了航拍与地面视角的几何对齐，为多视角三维重建、相机姿态估计和新视角合成等任务提供了关键数据支持。该工作发表在计算机视觉顶级会议，显著提升了航拍-地面跨视角场景理解的性能基准。

当前挑战

AerialMegaDepth主要应对两大核心挑战：在领域问题层面，现有学习方法难以处理航拍与地面视角间的极端视角差异（如基线DUSt3R模型在5度旋转误差内的配准成功率仅5%）；在构建过程层面，真实航拍-地面图像对的地理配准需要专业传感器或人工干预，而单纯三维网格渲染存在地面视角纹理失真的域差距问题。研究团队通过开发混合数据生成框架，将伪合成航拍渲染与真实地面图像在统一坐标系中对齐，最终将跨视角配准准确率提升至56%，并生成150万组训练对以支撑学习任务。

常用场景

经典使用场景

AerialMegaDepth数据集在计算机视觉领域中最经典的使用场景是处理地面和空中视角之间的极端视角变化问题。该数据集通过结合伪合成渲染和真实地面图像，为多视角几何重建和视角合成任务提供了高质量的监督数据。例如，在DUSt3R和MASt3R等算法的微调中，AerialMegaDepth显著提升了地面-空中图像对的相机配准精度，将旋转误差在5度以内的配准成功率从5%提升至56%。

实际应用

AerialMegaDepth数据集在实际应用中具有广泛价值，特别是在无人机和地面设备的协同工作中。例如，在城市三维重建、自动驾驶和地理信息系统（GIS）中，该数据集可以用于提升地面和空中图像的配准精度，从而实现更精确的场景建模和导航。此外，该数据集还能用于增强现实（AR）和虚拟现实（VR）中的视角合成，提供更真实的视觉体验。

衍生相关工作

AerialMegaDepth数据集衍生了许多经典工作，特别是在多视角几何重建和视角合成领域。例如，基于该数据集微调的DUSt3R和MASt3R算法在极端视角变化下表现出色。此外，ZeroNVS算法在AerialMegaDepth上的微调显著提升了空中到地面视角合成的性能。这些工作不仅验证了数据集的有效性，还推动了计算机视觉领域在处理跨视角任务中的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集