UAVScenes

github2025-07-31 更新2025-08-01 收录

下载链接：

https://github.com/sijieaaa/UAVScenes

下载链接

链接失效反馈

官方服务：

资源简介：

UAVScenes是一个大规模数据集，旨在为2D和3D模态的各种任务提供基准。该基准数据集基于经过良好校准的多模态无人机数据集MARS-LVIG构建，最初仅用于同时定位与地图构建（SLAM）。我们通过为图像和LiDAR点云提供手动标记的语义注释以及精确的6自由度（6-DoF）姿态来增强该数据集。这些新增功能支持广泛的无人机感知任务，包括检测、分割、深度估计、6-DoF定位、地点识别和新视角合成（NVS）。据我们所知，这是第一个提供图像和LiDAR点云语义注释（12万标记对）的无人机基准数据集，有望推动多模态无人机感知研究的发展。

UAVScenes is a large-scale dataset developed to establish benchmarks for diverse tasks across 2D and 3D modalities. Built upon the well-calibrated multimodal UAV dataset MARS-LVIG—originally designed exclusively for Simultaneous Localization and Mapping (SLAM)—we enhance this resource by supplementing it with manually annotated semantic labels and precise 6-degree-of-freedom (6-DoF) poses for both images and LiDAR point clouds. This expanded dataset supports a broad spectrum of UAV perception tasks, including object detection, semantic segmentation, depth estimation, 6-DoF localization, place recognition, and novel view synthesis (NVS). To the best of our knowledge, UAVScenes is the first UAV benchmark dataset offering semantic annotations for both images and LiDAR point clouds, with a total of 120,000 labeled pairs, and it is poised to advance research in multimodal UAV perception.

创建时间：

2025-07-21

原始信息汇总

UAVScenes数据集概述

基本信息

数据集名称：UAVScenes
发布会议：ICCV 2025
论文链接：http://arxiv.org/abs/2507.22412
许可证：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License（仅限学术使用）

数据集简介

多模态无人机数据集，支持2D和3D任务基准测试
基于MARS-LVIG数据集构建，增加了手动标注的语义信息
包含图像和LiDAR点云的语义标注（共120k标注对）
提供精确的6自由度（6-DoF）位姿信息

数据内容

Hikvision相机图像及标注
Livox Avia LiDAR点云及标注
6-DoF位姿数据
重建的3D点云/网格地图
颜色映射文件（cmap.py）
相机-LiDAR标定数据（calibration_results.py）
相机-3D地图标定数据（sampleinfos_interpolated.json）

数据集规格

包含4个大场景：
- AMtown
- AMvalley
- HKairport
- HKisland
每个场景包含多个运行序列（如01、02、03）

下载选项

完整数据集（interval=1）
关键帧数据集（interval=5，大小为完整数据集的1/5）
下载平台：
- OneDrive：https://entuedu-my.sharepoint.com/:f:/g/personal/wang1679_e_ntu_edu_sg/EgY6DU5GBchIiAIa-eQZmEAB0vJx3khCPHbFW3LnR77RFw?e=26GaSc
- Google Drive：https://drive.google.com/drive/folders/1HSJWc5qmIKLdpaS8w8pqrWch4F9MHIeN?usp=sharing
- 百度网盘：https://pan.baidu.com/s/13CgnxRFqevQ8Fa1Y3dkM0A?pwd=1679

标注工具

2D标注：X-AnyLabeling
3D标注：CloudCompare
3D重建：DJI Terra（大疆智图）

引用格式

bibtex @article{Wang2025UAVScenes, title = {UAVScenes: A Multi‑Modal Dataset for UAVs}, author = {Wang, Sijie and Li, Siqi and Zhang, Yawei and Yu, Shangshu and Yuan, Shenghai and She, Rui and Guo, Quanjiang and Zheng, JinXuan and Howe, Ong Kang and Chandra, Leonrich and Srijeyan, Shrivarshann and Sivadas, Aditya and Aggarwal, Toshan and Liu, Heyuan and Zhang, Hongming and Chen, Chujie and Jiang, Junyu and Xie, Lihua and Tay, Wee Peng}, journal = {arXiv preprint arXiv:2507.22412}, year = {2025}, url = {https://arxiv.org/abs/2507.22412} }

搜集汇总

数据集介绍

构建方式

在无人机感知研究领域，UAVScenes数据集的构建基于经过严格校准的多模态无人机数据集MARS-LVIG，通过精心设计的标注流程实现了数据增强。研究团队采用X-AnyLabeling工具对图像数据进行二维语义标注，运用CloudCompare完成激光雷达点云的三维标注，并借助大疆智图软件进行三维场景重建。数据集包含四个典型场景的多次飞行数据，每帧数据均配有精确的6自由度位姿信息，最终形成包含12万对图像-点云标注样本的大规模基准数据集。

特点

作为无人机多模态感知研究的重要资源，UAVScenes展现出显著的技术特色。该数据集首次同时提供图像与激光雷达点云的语义标注，涵盖检测、分割、深度估计等多种任务需求。其多场景设计包含城市、山谷、机场等典型环境，每个场景包含多次飞行轨迹数据，确保了数据的多样性和代表性。特别值得注意的是，数据集提供完整的传感器标定参数和三维重建地图，为多模态融合研究提供了坚实基础。

使用方法

研究人员可通过云平台获取UAVScenes数据集的完整版或关键帧版本，其中包含可见光图像、激光雷达点云及其对应标注文件。使用前需加载cmap.py中的色彩映射文件，并参考calibration_results.py中的传感器标定参数。数据集支持多种无人机感知任务的基准测试，包括但不限于目标检测算法验证、跨模态分割模型训练、以及基于位姿信息的视觉定位研究。对于三维重建任务，可利用提供的sampleinfos_interpolated.json文件实现数据对齐。

背景与挑战

背景概述

无人机技术的快速发展为多模态感知研究开辟了新的疆域，UAVScenes数据集应运而生。该数据集由新加坡南洋理工大学等机构的研究团队于2025年发布，基于MARS-LVIG数据集构建，是首个同时提供图像和激光雷达点云语义标注的无人机基准数据集。作为ICCV 2025的成果，UAVScenes包含12万标注样本，覆盖检测、分割、深度估计、6自由度定位等多项感知任务，为多模态无人机研究提供了重要基础设施。数据集包含四个大规模场景，通过专业标注工具和三维重建技术，显著提升了无人机环境理解的精度与维度。

当前挑战

无人机多模态感知面临诸多挑战：在领域问题层面，复杂环境下的跨模态数据对齐精度不足，动态场景中的语义标注一致性难以保证，小目标检测受限于传感器分辨率；在构建过程层面，大规模点云标注耗费巨大人力成本，多传感器时空标定存在累积误差，不同光照条件下的数据质量波动显著。此外，如何保持6自由度位姿估计的全局一致性，以及平衡标注密度与计算效率，都是构建过程中需要攻克的技术难关。

常用场景

经典使用场景

在无人机（UAV）研究领域，UAVScenes数据集因其多模态特性成为评估2D和3D感知任务的黄金标准。该数据集通过提供精确的6自由度位姿和语义标注，广泛应用于目标检测、语义分割、深度估计以及新颖视角合成等任务。特别是在复杂场景如机场和岛屿环境中，其丰富的传感器数据和标注信息为算法性能验证提供了可靠基准。

解决学术问题

UAVScenes数据集解决了无人机感知研究中多模态数据融合的难题。通过整合图像和LiDAR点云的语义标注，研究者能够探索跨模态的联合学习方法，提升模型在动态环境中的鲁棒性。该数据集填补了无人机领域缺乏高质量标注数据的空白，为6自由度定位、场景识别等前沿课题提供了关键实验基础。

衍生相关工作

基于UAVScenes数据集，研究者已提出多模态Transformer架构用于实时场景理解，其标注工具链X-AnyLabeling和CloudCompare成为3D标注的通用解决方案。该数据集还启发了如《Cross-Modal Place Recognition in UAVs》等经典论文，推动了无人机视觉-激光雷达跨模态学习的研究浪潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集