mattia-durso/Uni10K

Name: mattia-durso/Uni10K
Creator: mattia-durso
Published: 2026-05-02 08:12:42
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/mattia-durso/Uni10K

下载链接

链接失效反馈

官方服务：

资源简介：

Uni10K是一个大型户外重建数据集，覆盖了约100,000平方米的大学校园场景。该数据集包含从地面和空中视角拍摄的10,000多张4K分辨率图像。由于图像匹配和映射的复杂性，标准的COLMAP重建在此规模下通常需要数周的计算时间。为了使重建可行，使用了空间和时间先验以及从粗到精的重建方案。首先，利用GPS信息将图像匹配的复杂性从二次降低到近线性，通过限制图像比较在预定义的空间半径内。其次，由于帧是从视频序列中采样的，最初从每秒1帧的均匀采样帧中重建基线模型。然后通过增量注册、三角测量和使用局部束调整细化附加图像来增加相机覆盖密度。该过程以几轮全局束调整结束。最终重建包含10,000多张图像、620万个稀疏点，整体平均重投影误差约为0.63像素。训练在全分辨率图像上进行，每第8帧按字母顺序保留作为测试集的一部分。

Uni10K is a large-scale outdoor reconstruction dataset of a university campus covering approximately 100,000 m². The scene is captured from both ground-level and aerial viewpoints and contains more than 10,000 4K-resolution images. A standard COLMAP reconstruction at this scale would typically require weeks of computation because of the complexity of image matching and mapping. To make reconstruction feasible, we use spatial and temporal priors together with a coarse-to-fine reconstruction scheme. First, GPS information is used to reduce the image-matching complexity from quadratic to near-linear by limiting image comparisons to a predefined spatial radius. Second, because the frames are sampled from video sequences, we initially reconstruct a baseline model from frames sampled uniformly at 1 frame per second. Camera coverage is then densified by incrementally registering, triangulating, and refining additional images using local bundle adjustment. The process concludes with several rounds of global bundle adjustment. The final reconstruction contains more than 10,000 images, 6.2 million sparse points, and an overall mean reprojection error of approximately 0.63 pixels. Training is performed on the full-resolution images. Every 8th frame, sorted alphabetically, is held out as part of the test set.

提供机构：

mattia-durso

搜集汇总

数据集介绍

构建方式

Uni10K数据集基于对一所占地面积约10万平方米的大学校园进行大规模户外场景重建而构建。数据采集融合了地面与空中双重视角，获取超过一万张4K分辨率图像。为规避标准COLMAP流程因图像匹配与映射复杂度导致的数周计算时间，研究团队巧妙利用空间与时间先验知识，采用从粗到精的重建方案。首先借助GPS信息将图像匹配的二次复杂度降至近线性，仅预设空间半径内的图像进行比对；随后从视频序列中均匀抽取每秒一帧的图像构建基线模型，再通过增量式注册、三角化和细化逐步加密相机覆盖范围，并配合局部与全局光束法平差完成优化，最终得到含逾一万张图像与620万个稀疏点的精准重建结果。

特点

该数据集的核心特点在于其超大规模与多视角融合的独特性。场景覆盖面积广阔，图像分辨率高达4K，结合了地面与航拍影像，为户外三维重建提供了前所未有的细节丰富度。其重建精度卓越，整体平均重投影误差仅为约0.63像素。数据组织形式高度规范化，所有图像已完成去畸变处理，可直接用于3D高斯泼溅技术。数据集还明确划分了训练集与测试集，每第8帧（按字母序排列）被保留用于评估，确保了研究使用的标准性与可复现性。

使用方法

使用Uni10K数据集时，研究者可依据其清晰的目录结构直接开展工作。数据集以‘undistorted’为主目录，内含‘sparse’与‘images’两个子文件夹。‘sparse’文件夹存储了COLMAP格式的运动恢复结构输出，包括相机内参、外参（位姿）及稀疏三维点云；‘images’文件夹则按‘aerial’等子目录存放已去畸变的视频帧图像。使用者可直接加载这些参数与图像，用于训练和评估各类图像到三维、深度估计或图像到图像转换模型，尤其适用于大规模场景重建与渲染任务，无需额外的前置处理步骤。

背景与挑战

背景概述

Uni10K数据集由奥地利格拉茨技术大学与华为技术等机构的研究人员于2025年创建，旨在解决大规模室外场景三维重建中数据匮乏的难题。该数据集覆盖约10万平方米的大学校园，包含超过1万张4K分辨率的地面与航空视角图像，为从图像到三维的映射、深度估计及多视角立体视觉等任务提供了前所未有的精细基准。其发布标志着超大规模场景重建研究迈入新阶段，特别是在结合可可学习记忆与高斯溅射的统一训练框架下，显著推动了结构从运动和神经渲染技术的协同发展。

当前挑战

该数据集面临的核心挑战在于应对超大规模场景重建中的计算复杂性与数据一致性。一方面，传统结构从运动算法在十万平方米尺度下因图像匹配呈二次增长而导致数周的计算耗时；另一方面，航空与地面视角的混合采集引入了剧烈的尺度变化、光照差异及遮挡问题，对全局相机姿态校准与稀疏点云精度构成严峻考验。此外，构建过程中需在GPS先验与粗到细重建策略下平衡局部与全局光束法平差的质量，确保超过1万张图像的平均重投影误差控制在亚像素级别，这对算法鲁棒性与内存效率提出了极高要求。

常用场景

经典使用场景

Uni10K作为一项大规模室外重建数据集，覆盖约10万平方米的大学校园区域，融合了地面与空中视角的超过10,000张4K分辨率影像。其最经典的使用场景在于服务于超大规模场景的三维重建与渲染研究，尤其适用于基于3D高斯泼溅（3D Gaussian Splatting）的神经网络训练与测试。研究者可利用该数据集提供的去畸变图像及COLMAP格式的稀疏重建结果，开展从运动恢复结构（SfM）到多视图立体的全流程实验，为城市级数字孪生与高精度环境建模奠定数据基础。

实际应用

在实际应用中，Uni10K为智慧城市、无人机测绘、自动驾驶高精地图生成及文化遗产数字化保护等场景提供了坚实的数据支撑。其融合空中与地面视角的影像集合，可用于训练高效的城市级神经辐射场与高斯泼溅渲染管线，支持端侧设备上的沉浸式漫游与虚拟现实交互。此外，基于稀疏先验的渐进式注册方案，可直接迁移至资源受限的嵌入式平台，满足野外环境下的快速三维感知与动态更新需求。

衍生相关工作

围绕Uni10K，衍生出一系列重要研究工作，其中最典型的是其伴随论文《A LoD of Gaussians: Unified Training and Rendering for Ultra-Large-Scale Reconstruction with External Memory》。该工作提出了结合外部存储的大规模高斯泼溅统一训练与渲染框架，首次实现了对超十万平方米场景的高效内存管理。后续工作可在此基础上探索分层细节层次（LoD）与增量式神经渲染的融合，以及将Uni10K作为测试床验证稀疏匹配与密集深度估计的跨域泛化能力，进一步催生了面向城市级场景的实时三维重建新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集