Aerial-Earth3D

Name: Aerial-Earth3D
Creator: 阿里巴巴集团达摩院，复旦大学
Published: 2025-07-22 20:46:48
License: 暂无描述

arXiv2025-07-22 更新2025-07-24 收录

下载链接：

https://whiteinblue.github.io/earthcrafter/

下载链接

链接失效反馈

官方服务：

资源简介：

Aerial-Earth3D 是目前最大的三维航空数据集，由阿里巴巴集团达摩院和复旦大学共同创建。该数据集包含了来自美国大陆的 50,028 个精心挑选的场景，每个场景覆盖 600m×600m 的范围，共包含 4500 万个多视图帧。每个场景都提供了姿态标注的多视图图像、深度图、法线、语义分割和相机姿态，并进行了明确的质量控制以确保地形多样性。该数据集的创建旨在解决大规模三维地球生成中的挑战，如建模数千平方公里的地球表面。数据集通过从 Google Earth 捕获图像并使用 InstantNGP 重建三维网格来构建，然后通过 AIE-SEG 创建语义图。Aerial-Earth3D 数据集支持各种应用，从语义引导的城市布局生成到无条件地形合成，同时通过其丰富的数据先验保持地理合理性。

Aerial-Earth3D is currently the largest 3D aerial dataset, jointly created by Alibaba Group DAMO Academy and Fudan University. This dataset comprises 50,028 carefully selected scenes sourced from the continental United States, with each scene covering an area of 600m × 600m, totaling 45 million multi-view frames. Each scene provides pose-annotated multi-view images, depth maps, surface normals, semantic segmentation masks, and camera poses, with explicit quality control implemented to ensure terrain diversity. The dataset was developed to address challenges in large-scale 3D Earth generation, such as modeling Earth surfaces spanning thousands of square kilometers. It is constructed by capturing imagery from Google Earth and reconstructing 3D meshes using InstantNGP, followed by the creation of semantic maps via AIE-SEG. The Aerial-Earth3D dataset supports a wide range of applications, ranging from semantic-guided urban layout generation to unconditional terrain synthesis, while maintaining geographic plausibility through its rich data priors.

提供机构：

阿里巴巴集团达摩院，复旦大学

创建时间：

2025-07-22

原始信息汇总

EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion

数据集概述

数据集名称: Aerial-Earth3D
规模: 50,028个场景，每个场景覆盖600m×600m区域
数据来源: 美国本土，包含4500万帧Google Earth多视角图像
数据类型:
- 姿态标注的多视角图像
- 深度图
- 法线图
- 语义分割图
- 相机位姿

数据特征

质量保证: 通过显式质量控制确保地形多样性
处理技术:
- 基于DEM、OSM和MS-Building数据集设计启发式相机位姿
- 使用InstantNGP重建3D网格
- 应用后处理技术提取表面平面、修正法线并优化网格连接性
语义标注: 包含25个不同类别的AIE-SEG语义图

技术框架

核心组件:
- TexVAE和StructVAE: 分别压缩高分辨率几何体素和纹理2D高斯泼溅(2DGS)到紧凑潜在空间
- TexFM和StructFM: 条件感知流匹配模型，独立建模潜在几何和纹理特征
创新点:
- 双稀疏3D-VAE架构
- 分离结构和纹理生成
- 支持混合输入条件(语义、图像或无)

应用能力

生成能力:
- 语义引导的城市布局生成
- 无条件地形合成
- 无限场景生成(验证尺寸748×748)
地理合理性: 通过Aerial-Earth3D的丰富数据先验保持

搜集汇总

数据集介绍

构建方式

Aerial-Earth3D数据集的构建过程体现了严谨的科学方法论与先进的技术融合。研究团队首先从Google Earth平台筛选了150,745个美国本土高质量兴趣点，通过空间去重后保留50,028个场景。采用多源数据融合策略，整合OSM道路数据、DEM地形数据和MS-Building高度数据构建高精度3D模拟场景。利用InstantNGP神经辐射场技术重建场景网格，并应用Marching Cubes算法生成3D网格。通过AIE-SEG模型生成25类语义标注，采用Flux-VAE编码器提取特征，最终形成包含多视角图像、深度图、法线图、语义分割和相机位姿的全方位标注体系。

使用方法

该数据集支持端到端的3D场景生成流程：StructFM模型首先生成结构潜在编码，StructVAE解码器将其转换为高分辨率体素坐标；TexFM模型随后生成纹理潜在特征，经TexVAE解码为2D高斯泼溅表示。用户可通过语义图、RGBD图像或无条件输入灵活控制生成过程，其中语义条件支持648×648像素的大尺度场景生成。针对实际应用中的域偏移问题，建议启用体素锯齿扰动（Jagged Perturbation）和法线丢弃（Normal Drop）等数据增强策略，这些措施在实验中证明可提升生成结果的几何一致性和视觉真实性。

背景与挑战

背景概述

Aerial-Earth3D是由阿里巴巴集团DAMO学院与湖畔实验室联合研发的大规模三维航拍数据集，于2025年7月通过论文《EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion》正式发布。该数据集包含美国本土50,028个经过严格筛选的航拍场景（每个场景覆盖600m×600m区域），整合了4500万帧多视角Google Earth图像，并提供了姿态标注的多视角图像、深度图、法线贴图、语义分割及相机参数等完整三维标注。作为当前全球规模最大的三维航拍数据集，其创新性地融合了数字高程模型（DEM）、OpenStreetMap道路数据与微软建筑轮廓数据，通过Instant-NGP神经渲染技术重建高质量三维网格，为地理尺度三维生成任务建立了新的数据基准。该数据集显著推动了计算机视觉、地理信息系统与三维重建等领域的交叉研究，特别是在城市建模、地形合成等应用场景展现出重要价值。

当前挑战

Aerial-Earth3D的构建面临双重核心挑战：在领域问题层面，需解决地理尺度三维生成中自然地形与人工结构的协同建模难题，现有方法多局限于城市区域而忽视山脉、湖泊等多样地貌；在数据构建层面，面临海量航拍图像的三维重建质量管控挑战，包括多视角几何一致性保障、半透明表面（如水体、玻璃幕墙）的网格修复，以及基于有限视角的语义标注传递等问题。技术实现上需突破大规模点云语义分割的标注效率瓶颈（采用AIE-SEG模型处理25类地物），并设计启发式相机轨迹规划算法以平衡场景覆盖度与数据采集成本。此外，数据集需处理Google Earth图像与Airbus数据的异构性带来的几何失真，通过高度梯度分析等后处理确保地形多样性。

常用场景

经典使用场景

Aerial-Earth3D数据集在3D地理空间建模领域具有广泛的应用价值。该数据集通过多视角航拍图像、深度图、法线贴图和语义分割等丰富标注，为大规模3D地球表面建模提供了关键数据支持。其最经典的使用场景是作为地理尺度3D生成模型的训练基准，特别是在处理城市布局与自然地形混合的复杂场景时，能够支持从单视角语义到多视角RGBD等多种条件生成任务。数据集覆盖美国本土5万场景、4500万帧图像，每个场景600m×600m的规模使其成为当前最大的3D航拍数据集。

解决学术问题

该数据集有效解决了地理尺度3D生成的两大核心挑战：一是突破了现有城市生成框架对单一语义范围的局限，首次实现了山脉、湖泊、沙漠等多类自然地形的统一建模；二是通过精确的相机位姿标注和显式质量控制，克服了无条件生成中几何结构失真的问题。其提供的体素化几何表示和2D高斯泼溅纹理，为双稀疏潜在扩散模型EarthCrafter的提出奠定了数据基础，使模型在保持97.1%结构精度的同时，将计算开销降低至传统方法的1/256。

实际应用

在实际应用中，Aerial-Earth3D支持从城市规划到虚拟现实的多个领域。基于该数据集训练的EarthCrafter框架已实现412平方米无限场景生成，可应用于城市设计中的语义引导布局生成、游戏引擎中的开放世界构建，以及数字孪生中的高保真地理建模。其特有的体素粗糙化增强和法线丢弃策略，显著提升了在建筑立面、树冠等复杂结构的生成鲁棒性，为自动驾驶仿真、无人机航测等工程场景提供了可靠的三维环境数据源。

数据集最近研究