TerraSky3D

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/mattia-durso/TerraSky3D

下载链接

链接失效反馈

官方服务：

资源简介：

TerraSky3D 是一个高分辨率、大规模的三维重建数据集，包含 50,000 张图像，分为 155 个地面、空中和混合场景，专注于欧洲地标。该数据集提供了经过整理的校准数据、相机位姿和深度图，旨在满足对具有挑战性的三维重建相关流程训练和评估的需求。数据集包含 42,992 张测试图像和 3,018 张训练图像，总计 2,624,784 对立体/重叠图像对（其中地面视角 1,682,869 对，空中视角 728,502 对，混合视角 213,413 对）。数据采用结构化格式存储，便于集成到 SfM 和新视角合成流程中，包括 COLMAP 格式的输出、提取的视频帧、多视角立体深度输出以及几何和语义掩码。

创建时间：

2026-04-15

原始信息汇总

TerraSky3D 数据集概述

基本信息

数据集名称：TerraSky3D
许可证：MIT
任务类别：图像到3D、深度估计、图像到图像
语言：英语
标签：3D、多视图立体视觉、运动恢复结构、航空影像、空地视角、欧洲地标
数据规模：10K<n<100K

核心描述

TerraSky3D 是一个高分辨率、大规模的三维重建数据集，包含 50,000 张图像，分为 155 个地面、航空及混合场景。该数据集专注于欧洲地标，并提供经过整理的校准数据、相机位姿和深度图，旨在满足训练和评估三维重建相关流程对具有挑战性数据集的需求。

数据统计

训练集/测试集统计（v1.0版）

指标	测试集	/	训练集	描述
场景数量	133	/	12	场景总数。
图像数量	42,992	/	3,018	数据集中提供的高分辨率（4K）图像数量。
图像对总数	2,624,784	/	43,720	捕获的总立体/重叠图像对数量。
↳ 地面视角对	1,682,869	/	32,718	仅从地面视角捕获的图像对。
↳ 航空视角对	728,502	/	6,308	仅从航空视角捕获的图像对。
↳ 混合视角对	213,413	/	4,694	同时包含航空和地面视角的图像对。

数据下载与格式

下载地址：https://huggingface.co/datasets/mattia-durso/TerraSky3D
数据查看工具：可使用 data_viewer.ipynb 生成 train_data.json 并可视化数据集中的图像对示例。
数据目录结构：

data/scene/ ├── colmap/ # COLMAP格式的运动恢复结构输出 │ └── sparse/ │ └── 0/
│ ├── cameras # 相机内参 │ ├── images # 相机外参/位姿 │ └── points3D # 稀疏点云 ├── frames/ # 提取的视频帧 │ ├── cam_0/ │ │ └── frame_000000.jpg # 格式: cam_i/frame_*.jpg │ ├── cam_1/ │ │ └── frame_000000.jpg │ └── ... ├── depth/ # 多视图立体视觉深度输出 │ ├── maps/ # 来自APD-MVS的原始深度估计 │ │ ├── cam_0/ │ │ │ └── frame_000000.h5 │ │ └── ... │ ├── masks_geometric/ # 来自APD-MVS的几何掩码 │ │ ├── cam_0/ │ │ │ └── frame_000000.png │ │ └── ... │ └── masks_semantic/ # 来自Mask2Former的语义掩码 │ ├── cam_0/ │ │ └── frame_000000.png │ └── ... └── train_data.json # 包含场景、图像和相机参数的字典

引用

如果此数据集或代码对您的研究有帮助，请考虑引用： bibtex @article{durso202Xterrasky3d, title={TerraSky3D: Multi-View Reconstructions of European Landmarks in 4K}, author={DUrso, Mattia and Hu, Yuxi and Rossi, Mattia and Sormann, Christian and Fraundorfer, Friedrich}, booktitle={IEEE Conference on Computer Vision and Pattern Recognition}, year={2026} }

搜集汇总

数据集介绍

构建方式

在三维重建领域，高质量数据集的稀缺性长期制约着算法的发展与评估。TerraSky3D的构建旨在填补这一空白，其采集过程系统而严谨。研究团队针对欧洲地标性建筑，精心规划了155个场景，通过无人机与地面设备协同作业，捕获了涵盖空中与地面视角的混合影像序列。总计五万张图像均以4K高分辨率采集，确保了数据的清晰度与细节丰富性。随后，团队采用运动恢复结构（SfM）技术进行稀疏重建，并利用先进的APD-MVS流程生成深度图，同时结合Mask2Former模型进行语义分割，最终形成了包含精确相机参数、姿态及多层次深度信息的结构化数据集。

特点

TerraSky3D数据集的核心特征体现在其规模、质量与场景设计的综合性上。数据集囊括了超过五万张4K分辨率图像，规模介于一万至十万之间，为大规模模型训练提供了充足样本。其独特之处在于融合了空中、地面及混合视角的拍摄场景，这种多视角配置极大地丰富了三维重建任务的挑战性与真实性。数据集不仅提供了原始的图像帧，还附带了由SfM生成的稀疏点云、相机内外参数，以及经过几何与语义过滤的深度图，形成了一个多层次、高精度的基准数据集合，尤其适用于评估复杂的三维重建与深度估计算法。

使用方法

为便于研究者集成与使用，TerraSky3D采用了清晰统一的目录结构。数据集按场景组织，每个场景目录下包含colmap文件夹存放SfM输出的相机参数与稀疏点云，frames文件夹存储原始的图像序列，depth文件夹则提供多视角立体视觉生成的深度图及其对应的几何与语义掩膜。用户可通过附带的data_viewer.ipynb脚本生成训练所需的JSON配置文件，并可视化图像对示例。该结构设计兼容主流的运动恢复结构与神经渲染流程，使得数据集能够无缝接入三维重建、深度估计及新颖视图合成等研究管线中，直接服务于模型的训练与评估。

背景与挑战

背景概述

在三维重建技术日益精进的背景下，高质量、大规模且标注详尽的数据集对于推动相关算法的发展至关重要。TerraSky3D数据集由格拉茨工业大学与索尼公司的研究人员于2026年联合创建，旨在应对当前公开三维数据在分辨率、场景多样性与采集一致性方面的不足。该数据集聚焦于欧洲地标性建筑，通过整合空中与地面视角的高分辨率图像，为多视图立体视觉与结构光运动恢复等核心研究问题提供了丰富的实验素材，对计算机视觉领域的三维场景理解与新颖视图合成研究具有显著的推动作用。

当前挑战

TerraSky3D数据集致力于解决复杂场景下高精度三维重建的挑战，其核心问题在于如何从多视角、跨尺度的图像中恢复出稠密且几何一致的三维模型。构建过程中面临多重困难：一方面，数据采集需协调无人机与地面设备，确保在不同光照与视角下获取数万张4K图像的一致性；另一方面，后续处理涉及大规模图像的对齐、深度图估计与语义分割，计算复杂度极高，且需保证标注数据的几何与语义精度，以支撑后续三维高斯散射等先进重建方法的训练与评估。

常用场景

经典使用场景

在计算机视觉与三维重建领域，TerraSky3D数据集为多视角立体视觉（MVS）和结构光运动（SfM）算法提供了经典的评估与训练平台。该数据集聚焦于欧洲地标建筑，涵盖了地面与航拍视角的高分辨率4K图像，并附有精确的相机标定参数、姿态估计及深度图。研究人员通常利用其丰富的场景多样性，验证新型三维重建管道在复杂真实环境下的鲁棒性与精度，特别是在处理跨视角（如空中到地面）图像对齐和稠密点云生成等核心任务时，该数据集成为不可或缺的基准工具。

解决学术问题

TerraSky3D直接应对了当前三维重建研究中高质量公共数据匮乏的学术挑战。现有数据集往往受限于分辨率低下、场景数量有限或图像质量参差不齐等问题，而该数据集通过提供大规模、高分辨率且经过严格几何与语义过滤的多视角数据，有效支持了三维重建管道的端到端训练与评估。其意义在于推动了跨视角重建、深度估计优化以及新型视图合成等前沿方向的发展，为学术界建立了一个可靠、可复现的实验基准，加速了三维视觉技术的创新进程。

衍生相关工作

围绕TerraSky3D数据集，已衍生出一系列经典研究工作，主要集中在基于神经辐射场（NeRF）与三维高斯溅射（3DGS）的新型视图合成算法优化。例如，许多研究利用其提供的多视角深度图与相机参数，开发了能够融合空中与地面视角的混合重建管道，显著提升了大规模场景的渲染质量与效率。同时，该数据集也促进了跨模态三维表示学习的发展，为结合语义分割与几何重建的端到端框架提供了验证平台，推动了三维计算机视觉向更高效、更通用的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集