UniV

github2025-07-31 更新2025-08-08 收录

下载链接：

https://github.com/HaoDot/Video2BEV-Open

下载链接

链接失效反馈

官方服务：

资源简介：

数据集分割如下：训练集包含701个视频和12364张图片，覆盖701栋建筑和33所大学；查询集（无人机视角）包含701个视频，覆盖701栋建筑和39所大学；查询集（卫星视角）包含701张图片；查询集（地面视角）包含2579张图片；图库集（无人机视角）包含951个视频；图库集（卫星视角）包含951张图片；图库集（地面视角）包含2921张图片，覆盖793栋建筑和39所大学。训练集和测试集的大学没有重叠。

The dataset is split as follows: The training set contains 701 videos and 12,364 images, covering 701 buildings and 33 universities; the query set (drone view) includes 701 videos covering 701 buildings and 39 universities; the query set (satellite view) consists of 701 images; the query set (ground view) has 2,579 images; the gallery set (drone view) contains 951 videos; the gallery set (satellite view) includes 951 images; the gallery set (ground view) comprises 2,921 images covering 793 buildings and 39 universities. There is no overlap of universities between the training set and the test set.

创建时间：

2025-07-22

原始信息汇总

UniV数据集概述

数据集简介

任务目标：
1. 基于视频的无人机视角目标定位（无人机->卫星）：通过无人机视频定位目标建筑在卫星视图中的位置。
2. 基于视频的无人机导航（卫星->无人机）：通过卫星图像定位无人机曾经过的相关位置。

数据集构成

数据划分：

子集	数据量	建筑数量	大学数量
训练集	701视频 + 12364图像	701	33
Query_drone	701视频	701	39
Query_satellite	701图像	701	39
Query_ground	2579图像	701	39
Gallery_drone	951视频	951	39
Gallery_satellite	951图像	951	39
Gallery_ground	2921图像	793	39

文件结构： bash . ├── 30 │ ├── 10fps │ │ ├── test │ │ │ └── gallery_drone │ │ └── train │ │ └── drone │ ├── 2fps │ │ ├── test │ │ │ └── gallery_drone │ │ └── train │ │ └── drone │ └── 5fps │ ├── test │ │ └── gallery_drone │ └── train │ └── drone ├── 45 │ ├── 10fps │ │ ├── test │ │ │ └── gallery_drone │ │ └── train │ │ └── drone │ ├── 2fps │ │ ├── test │ │ │ ├── gallery_drone │ │ │ ├── gallery_satellite │ │ │ └── gallery_street │ │ └── train │ │ ├── drone │ │ ├── google │ │ ├── satellite │ │ └── street │ └── 5fps │ ├── test │ │ └── gallery_drone │ └── train │ └── drone ├── dataset_split.json └── organize_univ.py

下载与准备

下载地址：BaiduCloud
解压命令：cat UniV.tar.xz.* | tar -xvJf - --transform s|.*/|UniV/|

相关论文

bibtex @article{ju2024video2bev, title={Video2bev: Transforming drone videos to bevs for video-based geo-localization}, author={Ju, Hao and Huang, Shaofei and Liu, Si and Zheng, Zhedong}, journal={arXiv preprint arXiv:2411.13610}, year={2024} } @article{zheng2020university, title={University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization}, author={Zheng, Zhedong and Wei, Yunchao and Yang, Yi}, journal={ACM Multimedia}, year={2020} } @article{zheng2017dual, title={Dual-Path Convolutional Image-Text Embeddings with Instance Loss}, author={Zheng, Zhedong and Zheng, Liang and Garrett, Michael and Yang, Yi and Xu, Mingliang and Shen, Yi-Dong}, journal={ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)}, doi={10.1145/3383184}, volume={16}, number={2}, pages={1--23}, year={2020}, publisher={ACM New York, NY, USA} }

搜集汇总

数据集介绍

构建方式

在无人机与卫星视角跨模态定位研究领域，UniV数据集通过系统化采集流程构建而成。研究团队在33所训练集高校和39所测试集高校中，分别采集了701个无人机视频序列及对应的12,364张多视角图像，通过严格的时空对齐处理确保数据关联性。数据集采用分层采样策略，包含2fps/5fps/10fps三种帧率的视频数据，并按照7:3比例划分训练集与测试集，其中测试集额外包含2,579张地面视角图像以增强场景覆盖度。

特点

该数据集最显著的特征在于其多模态异构性，同时涵盖无人机视频流、卫星图像和地面视角图像三种数据类型。空间维度上覆盖70所高校的1,652栋建筑，时间维度提供不同采样频率的连续帧序列。数据组织采用树状结构存储，按30度/45度视角分类，并严格保证训练集与测试集在地理位置上的零重叠，这种设计有效避免了模型评估时的数据泄漏问题，为跨视角地理定位研究提供了严谨的基准平台。

使用方法

使用该数据集需遵循两阶段处理流程：首先通过BaiduCloud下载压缩包，使用特定解压指令重组数据文件。技术实现上依赖PyTorch 1.7.1+CUDA 11.0环境，需配置NVIDIA Apex混合精度库。研究团队提供train.sh和test.sh自动化脚本，支持分阶段训练评估——第一阶段聚焦编码器的实例损失与对比损失微调，第二阶段进行特征融合优化。对于高级应用如Video2BEV转换，需另行联系获取鸟瞰图合成数据与3D高斯散射输出。

背景与挑战

背景概述

UniV数据集是一个专注于无人机视角与卫星视角之间目标定位与导航任务的多模态数据集，由相关研究团队于2024年发布，并得到了学术界的广泛关注。该数据集的核心研究问题在于解决无人机视频与卫星图像之间的跨视角匹配难题，旨在提升无人机在复杂环境中的自主导航和目标定位能力。数据集涵盖了来自72所不同大学的建筑数据，包含丰富的视频和图像样本，为跨视角地理定位研究提供了重要支持。UniV的发布不仅推动了无人机视觉导航领域的发展，也为多模态数据融合研究提供了新的基准。

当前挑战

UniV数据集面临的挑战主要体现在两个方面：领域问题的挑战与构建过程的挑战。在领域问题方面，无人机视频与卫星图像之间存在显著的视角差异和尺度变化，如何实现跨模态特征对齐成为关键难题。同时，动态视频序列与静态卫星图像之间的时空信息匹配也增加了任务复杂度。在构建过程中，数据采集需协调无人机飞行轨迹与卫星图像覆盖范围，确保样本的空间一致性。此外，大规模多视角数据的标注工作涉及复杂的几何对齐与人工校验，对数据质量提出了较高要求。这些挑战共同构成了该数据集在算法研发与实际应用中的核心难点。

常用场景

经典使用场景

在无人机视觉与卫星图像融合领域，UniV数据集通过提供多视角、多帧率的视频与图像数据，成为研究跨视角目标定位任务的基准工具。其独特的无人机-卫星视角配对设计，使得研究者能够模拟真实场景中从动态视频流到静态卫星图像的空间映射过程，特别是在建筑物定位任务中展现了卓越的适配性。该数据集支持以10fps、5fps和2fps三种采样率分析时序信息对定位精度的影响，为多模态特征融合研究提供了标准化实验平台。

解决学术问题

该数据集有效解决了跨模态地理定位中的核心科学问题：如何建立动态视频序列与静态卫星图像间的鲁棒对应关系。通过提供701个建筑物的多视角训练数据和951个测试样本，研究者能够系统探究视角差异、光照变化和遮挡等因素对特征匹配的影响。其非重叠的33所训练高校与39所测试高校划分，显著提升了模型在未知场景中的泛化能力验证可靠性，推动了基于深度学习的跨视角度量学习理论发展。

衍生相关工作

基于UniV数据集衍生的Video2BEV框架开创了视频到鸟瞰图转换的新范式，相关论文被收录于计算机视觉顶会。该工作启发了后续多篇关于时空特征聚合的研究，如基于3D高斯泼溅（3DGS）的跨视角匹配算法。数据集构建者此前提出的University-1652基准已被ACM Multimedia 2020收录，而双路径卷积嵌入方法（Dual-Path Convolutional Embeddings）则为跨模态检索提供了新的损失函数设计思路，相关成果发表在TOMM期刊。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集