University-1652

arXiv2025-09-30 收录

下载链接：

https://github.com/layumi/university1652-baseline

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模的多视角多源无人机地理定位基准，涵盖了来自仿真无人机、卫星和地面相机的图像。它包含了来自全球72所大学的1,652栋建筑物，旨在提高无人机视角与卫星视角图像之间的匹配准确性。此外，该数据集还包括了701栋建筑物，训练集和测试集之间没有重叠，并通过图像增强技术缓解了不同领域图像的不平衡问题。该数据集规模宏大，拥有50,195张训练图像和37,855张测试图像，其任务重点是无人机视角目标定位和无人机导航。

This dataset is a large-scale multi-view and multi-source drone geolocalization benchmark, covering images captured by simulated drones, satellites, and ground cameras. It includes 1,652 buildings from 72 universities worldwide, aiming to improve the matching accuracy between drone-view and satellite-view images. Additionally, it contains another 701 buildings, with no overlap between the training and test sets. Data augmentation techniques are adopted to alleviate the data imbalance issue across different domains. Boasting a substantial scale, the dataset has 50,195 training images and 37,855 test images, whose core tasks focus on drone-view target geolocalization and drone navigation.

搜集汇总

数据集介绍

构建方式

在跨视角地理定位研究领域，数据集的构建需克服视角差异带来的视觉鸿沟。University-1652数据集通过多源数据采集策略，系统性地整合了卫星视图、无人机视图和地面视图。构建过程始于从维基百科获取全球72所大学的1,652座建筑元数据，并利用谷歌地图将其转换为精确的地理坐标。针对无人机视图，鉴于真实飞行数据采集的高成本，研究团队创新性地采用谷歌地球的三维引擎模拟无人机摄像头，通过螺旋飞行轨迹生成多视角图像，每座建筑平均获得54张合成无人机视图。卫星视图则直接通过地理坐标投影获取，而地面视图则结合谷歌街景图像和搜索引擎检索，经过噪声过滤后纳入训练集，最终形成包含50,218张训练图像的大规模多视角基准。

特点

University-1652数据集在跨视角地理定位领域展现出鲜明的多源性与多视角特性。其核心优势在于首次引入无人机平台数据，构建了卫星、无人机与地面相机三位一体的数据源体系，突破了传统数据集中仅包含双视角图像的局限。数据集为每座目标建筑提供了平均71.64张图像，涵盖不同距离、方向与尺度变化，极大地丰富了视角的多样性。这种密集的多视角覆盖不仅有助于模型理解目标的结构特征，还能有效促进视角不变特征的学习。此外，数据集支持无人机视图目标定位与无人机导航两项新兴任务，为地理定位研究开辟了新的应用方向，其合成数据与真实无人机图像之间的高度一致性进一步验证了数据的实用价值与泛化能力。

使用方法

在跨视角图像匹配任务中，University-1652数据集通常被构建为图像检索问题。研究团队提出了基于多分支卷积神经网络的基础模型，通过共享分类器权重将不同来源的图像映射到统一特征空间。训练时采用实例损失函数，利用数据集中每座建筑的多视角图像作为类别监督，以学习视角不变的特征表示。评估阶段，模型提取查询图像与候选库图像的视觉特征，通过余弦距离计算相似度并进行排序检索。数据集支持单查询与多查询两种设置，后者可通过平均多个查询特征提升定位精度。实验表明，在该数据集上训练的模型在无人机视图目标定位和无人机导航任务中均表现出色，且特征能够有效迁移至真实无人机图像与其他小规模数据集，体现了其良好的泛化性能与实用价值。

背景与挑战

背景概述

在跨视角地理定位领域，视觉差异的挑战长期存在，传统数据集多局限于地面与卫星两种视角的匹配，难以充分捕捉复杂场景下的空间结构。University-1652数据集于2020年由南方科技大学与悉尼科技大学联合团队提出，旨在通过引入无人机视角构建多源多视角基准。该数据集覆盖全球72所大学的1652栋建筑，整合了合成无人机视角、卫星视角及地面视角图像，核心研究聚焦于无人机视角目标定位与无人机导航任务，推动了地理定位模型对视角不变特征的学习，显著提升了跨平台图像匹配的鲁棒性与泛化能力。

当前挑战

跨视角地理定位的核心挑战在于如何克服不同平台间巨大的视觉差异，例如地面图像常受树木遮挡，而卫星图像则缺乏细节纹理，导致特征对齐困难。在数据集构建过程中，真实无人机数据的采集面临高昂成本与隐私限制，团队转而利用谷歌地球三维引擎合成无人机视角，但需平衡模拟数据的真实性与多样性。此外，地面视角图像依赖街景与网络爬取，引入了噪声与重复样本，需通过预训练模型与去重策略进行清洗，以确保数据质量与标注一致性。

常用场景

经典使用场景

在跨视角地理定位研究领域，University-1652数据集被广泛用于评估和开发多视角图像匹配算法。其经典使用场景集中于无人机视角目标定位任务，即利用无人机拍摄的图像在卫星图像库中检索对应建筑物的地理位置。该场景模拟了现实世界中无人机通过视觉感知进行自主定位的需求，研究者通过在此数据集上训练深度神经网络，学习能够跨越地面、无人机和卫星三种视角的鲁棒特征表示，从而在复杂视角变化下实现精准匹配。

实际应用

在实际应用层面，University-1652数据集支撑了无人机自主导航与地理定位系统的开发。例如，在物流配送领域，无人机可利用训练好的模型，根据实时拍摄的图像快速定位目标建筑物，实现精准投递。在应急救援中，无人机可通过卫星图像查询，导航至灾害现场进行勘察。此外，该数据集还可用于智慧城市管理，如基于多视角图像的城市建筑普查与监控。其合成的无人机数据大幅降低了真实数据采集成本，为实际场景中的算法部署提供了可行路径。

衍生相关工作

基于University-1652数据集，学术界衍生了一系列经典研究工作。许多研究聚焦于改进多视角特征学习框架，如设计更高效的三分支卷积网络结构，或引入注意力机制以增强跨视角语义对齐。在损失函数设计方面，实例损失、三元组损失及其变体被广泛探索，以提升特征判别性。此外，部分工作将数据集扩展至视频序列分析，研究时序信息对定位精度的影响。这些衍生工作不仅提升了数据集上的基准性能，也推动了跨模态检索、无人机视觉等方向的算法进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集