five

University-1652

收藏
arXiv2020-08-16 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2002.12186v2
下载链接
链接失效反馈
官方服务:
资源简介:
University-1652是一个多视角多源基准数据集,用于无人机地理定位研究。该数据集包含来自三个平台的数据:合成无人机、卫星和地面摄像机,涵盖全球72所大学的1652座建筑。数据集特点包括多视角图像、多源数据和大规模数据量,平均每个位置有71.64张图像。主要应用领域为无人机视角目标定位和无人机导航,旨在解决跨视角地理定位问题,通过无人机视角图像预测目标位置,以及根据卫星视角查询图像驱动无人机到达感兴趣区域。

University-1652 is a multi-view, multi-source benchmark dataset for drone geolocalization research. It contains data from three platforms: synthetic drone, satellite, and ground camera, covering 1652 buildings across 72 universities worldwide. The dataset features multi-view imagery, multi-source data, and large-scale data volume, with an average of 71.64 images per location. Its main application areas are drone-view target localization and drone navigation, which aim to solve cross-view geolocalization problems: predicting target locations through drone-view images, and driving drones to reach regions of interest using satellite-view query images.
提供机构:
南方科技大学与悉尼科技大学联合中心
创建时间:
2020-02-27
搜集汇总
数据集介绍
main_image_url
构建方式
在跨视角地理定位研究领域,构建多源多视角数据集对学习视角不变特征至关重要。University-1652数据集通过系统化流程构建:首先从维基百科获取全球72所大学的1,652栋建筑元数据,并利用谷歌地图将其编码为精确地理坐标;卫星视图图像通过坐标投影直接获取。针对无人机视图,鉴于真实飞行数据采集成本高昂,研究团队创新性地采用谷歌地球的3D引擎模拟真实无人机摄像头,通过螺旋飞行轨迹生成多视角合成图像,每栋建筑获得54帧不同高度与角度的视图。地面视图则整合谷歌街景图像与搜索引擎检索结果,并利用预训练模型过滤噪声数据,最终形成包含卫星、无人机和地面相机三大平台的多源数据集合。
特点
该数据集在跨视角地理定位基准中展现出鲜明特征。其核心在于多源性与多视角的深度融合:数据涵盖卫星俯视、无人机航拍与地面平视三大采集平台,首次将无人机视图系统性地纳入地理定位研究范畴。每个目标建筑平均拥有71.64幅图像,突破了传统数据集中成对图像提供的局限,为模型理解目标三维结构提供了丰富视角谱。无人机视图通过合成技术模拟了从256米至121.5米高度变化的螺旋飞行轨迹,有效捕捉了尺度与视角的连续变换。此外,数据集严格划分训练集与测试集,确保大学机构无重叠,并引入额外干扰样本,为评估模型泛化能力提供了严谨框架。
使用方法
该数据集主要支撑无人机视角目标定位与无人机导航两项新兴任务。在无人机视角目标定位任务中,系统以单幅或多幅无人机视图作为查询,从卫星图库中检索最匹配的目标建筑,实现地理坐标预测。无人机导航任务则相反,以卫星图像为查询,在无人机飞行历史图库中定位目标区域,为路径规划提供依据。研究实践中通常采用多分支卷积神经网络架构,分别处理不同平台输入,并通过共享分类器与实例损失函数将多源特征映射到统一语义空间。评估指标综合采用Recall@K与平均精度,以全面反映模型在多真实匹配场景下的检索性能。数据集还可用于迁移学习研究,验证所学特征在传统地标识别任务上的泛化能力。
背景与挑战
背景概述
在跨视角地理定位研究领域,传统数据集通常局限于地面与卫星两种视角的匹配,难以应对复杂多变的真实环境。为突破这一局限,南方科技大学与悉尼科技大学的研究团队于2020年联合发布了University-1652数据集。该数据集创新性地引入了无人机作为第三数据采集平台,涵盖全球72所大学的1652栋建筑,提供卫星、无人机模拟视角及地面摄像头采集的多源图像。其核心在于解决多视角特征学习难题,通过丰富的视角变化帮助模型学习更具鲁棒性的视觉表示,显著推动了无人机导航与目标定位等新兴任务的发展,成为该领域首个专注于无人机平台的地理定位基准。
当前挑战
University-1652数据集面临的挑战主要体现在两个方面:在领域问题层面,跨视角地理定位本身存在巨大视觉差异,例如地面视角图像常受树木等障碍物遮挡,而卫星视角则呈现顶视结构,这种视角差异使得特征对齐极为困难;无人机视角的引入虽能提供过渡信息,但模拟数据与真实无人机图像的域间差距仍需克服。在构建过程中,大规模真实无人机图像采集成本高昂且涉及隐私问题,研究团队转而利用谷歌地球三维引擎合成数据,但需确保合成视角能有效模拟真实飞行轨迹;同时,地面图像需从街景与网络引擎多源获取,并应对噪声图像过滤、数据标注一致性等难题,以构建高质量的多视角关联样本。
常用场景
经典使用场景
在跨视角地理定位研究领域,University-1652数据集最经典的使用场景是作为无人机视角地理定位任务的基准测试平台。该数据集通过整合卫星视图、地面视图以及合成的无人机视图图像,构建了一个多源多视角的视觉匹配环境。研究者通常利用该数据集训练深度神经网络,学习对视角变化具有鲁棒性的图像特征表示,进而评估模型在无人机视角目标定位和无人机导航两项核心任务上的性能。其丰富的视角变化和规模化的建筑类别为模型提供了充分的学习样本,使得该数据集成为推动跨视角匹配技术发展的关键基础设施。
实际应用
在实际应用层面,University-1652数据集支撑的技术在多个领域展现出巨大潜力。在无人机自主导航领域,基于卫星图像查询,无人机能够利用学习到的特征匹配历史飞行路径,从而精准返回或飞抵目标区域。在目标定位与搜索救援中,通过分析无人机实时拍摄的画面,系统可快速在卫星地图上锁定目标建筑的地理位置。此外,该技术也可应用于智慧城市管理、精准农业监测以及大型基础设施巡检等场景,为基于视觉的空中平台定位与导航提供了可靠的技术验证基础。
衍生相关工作
自University-1652数据集发布以来,其多源多视角的特性催生了一系列相关研究工作。许多后续研究以其为基础,探索了更高效的跨视角特征学习架构,例如设计专门的多分支卷积神经网络以更好地融合不同平台的特征。同时,该数据集也促进了针对视角对齐、空间语义理解等细分问题的算法创新。部分工作进一步利用其提供的丰富元数据(如相机位姿),研究视角与方向的联合建模。这些衍生工作不仅提升了无人机地理定位任务的性能,也将相关技术推广至更广泛的跨模态检索与场景理解领域,形成了持续演进的研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作