UAVScenes

Name: UAVScenes
Creator: 南洋理工大学
Published: 2025-07-30 14:29:52
License: 暂无描述

arXiv2025-07-30 更新2025-08-01 收录

下载链接：

https://github.com/sijieaaa/UAVScenes

下载链接

链接失效反馈

官方服务：

资源简介：

UAVScenes 是一个大规模的多模态数据集，专为无人机(UAV)感知任务而设计，提供了包括相机图像和激光雷达点云在内的帧级语义标注，以及准确的六自由度(6-DoF)位姿和重建的3D地图。该数据集包含超过12万帧的语义标注数据，支持包括语义分割、深度估计、6-DoF定位、场景识别和新视图合成(NVS)在内的多种多模态感知任务。UAVScenes 数据集的创建旨在填补现有无人机数据集在帧级标注和多模态感知方面的空白，为无人机感知研究提供了一个全面的基准测试平台。

UAVScenes is a large-scale multimodal dataset specifically designed for unmanned aerial vehicle (UAV) perception tasks. It provides frame-level semantic annotations including camera images and LiDAR point clouds, as well as accurate 6-degree-of-freedom (6-DoF) poses and reconstructed 3D maps. This dataset contains over 120,000 frames of semantically annotated data, supporting a variety of multimodal perception tasks such as semantic segmentation, depth estimation, 6-DoF localization, scene recognition, and novel view synthesis (NVS). UAVScenes was developed to fill the gaps in existing UAV datasets regarding frame-level annotations and multimodal perception, offering a comprehensive benchmark platform for UAV perception research.

提供机构：

南洋理工大学

创建时间：

2025-07-30

原始信息汇总

UAVScenes数据集概述

基本信息

数据集名称: UAVScenes
发布会议: ICCV 2025
论文链接: arXiv:2507.22412
数据集类型: 多模态无人机数据集
主要特点:
- 同时包含2D和3D模态数据
- 提供手动标注的语义标签（图像和LiDAR点云）
- 包含精确的6自由度位姿信息

数据内容

数据来源: 基于MARS-LVIG数据集扩展
标注工具:
- 2D标注: X-AnyLabeling
- 3D标注: CloudCompare
- 3D重建: DJI Terra
数据类型:
- 海康威视相机图像及标注
- Livox Avia LiDAR点云及标注
- 6-DoF位姿信息
- 重建的3D点云/网格地图
标注规模: 12万对图像和点云标注对

数据集结构

包含场景: 4个大型场景
- AMtown
- AMvalley
- HKairport
- HKisland
每个场景包含: 多个运行序列（如01,02,03等）

下载信息

版本选择:
- 完整数据集（interval=1）
- 关键帧数据集（interval=5，大小为1/5）
下载平台:

基准代码

正在准备中

引用格式

bibtex @article{Wang2025UAVScenes, title = {UAVScenes: A Multi‑Modal Dataset for UAVs}, author = {Wang, Sijie and Li, Siqi and Zhang, Yawei and Yu, Shangshu and Yuan, Shenghai and She, Rui and Guo, Quanjiang and Zheng, JinXuan and Howe, Ong Kang and Chandra, Leonrich and Srijeyan, Shrivarshann and Sivadas, Aditya and Aggarwal, Toshan and Liu, Heyuan and Zhang, Hongming and Chen, Chujie and Jiang, Junyu and Xie, Lihua and Tay, Wee Peng}, journal = {arXiv preprint arXiv:2507.22412}, year = {2025}, url = {https://arxiv.org/abs/2507.22412} }

许可信息

许可证类型: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
使用限制: 仅限学术用途

搜集汇总

数据集介绍

构建方式

UAVScenes数据集基于MARS-LVIG数据集构建，通过增强多模态感知能力，提供了手动标注的帧级图像和LiDAR点云语义注释，以及精确的6自由度（6-DoF）位姿。数据采集平台搭载了Hikvision相机和Livox Avia LiDAR，通过硬件同步确保数据对齐。利用Terra SfM解决方案进行6-DoF位姿重建，并通过X-AnyLabeling和CloudCompare工具进行语义标注，确保了数据的高质量和一致性。

特点

UAVScenes数据集具有超过12万帧带有语义注释的图像和LiDAR点云数据，覆盖了多种场景，包括城镇、山谷、机场和岛屿。其独特之处在于同时提供了帧级图像和LiDAR点云的语义注释，以及精确的6-DoF位姿，支持多种无人机感知任务，如语义分割、深度估计、6-DoF定位和新型视图合成。此外，数据集还包含了动态对象的实例级标注，进一步增强了其在复杂场景中的应用能力。

使用方法

UAVScenes数据集适用于多种无人机感知任务的基准测试，包括图像和LiDAR语义分割、位置识别、深度估计、6-DoF定位和新型视图合成。研究人员可以利用该数据集进行模型训练和评估，通过其丰富的多模态数据和精确的位姿信息，提升无人机在复杂环境中的感知能力。数据集的使用方法包括数据提取、预处理和模型训练，具体步骤可参考提供的代码库和文档。

背景与挑战

背景概述

UAVScenes是由南洋理工大学等机构的研究团队于2025年推出的多模态无人机感知数据集，旨在解决现有无人机数据集在高级场景理解任务中的局限性。该数据集基于MARS-LVIG数据集构建，提供了12万帧带有语义标注的相机图像和LiDAR点云数据，以及精确的6自由度位姿。UAVScenes支持多种感知任务，包括语义分割、深度估计、6自由度定位和新型视图合成等，填补了无人机多模态感知研究的空白。

当前挑战

UAVScenes面临的挑战主要包括：1) 领域问题挑战：现有无人机数据集多偏向于定位和3D重建任务，缺乏对高级场景理解任务的支持；2) 构建过程挑战：数据标注需要确保跨模态的一致性，特别是在处理动态物体和复杂场景时；3) 传感器融合挑战：不同传感器（如相机和LiDAR）的数据同步和校准需要高精度处理；4) 大规模数据处理挑战：处理12万帧数据的存储、标注和验证需要高效的计算资源和方法。

常用场景

经典使用场景

UAVScenes数据集在无人机多模态感知研究中具有广泛的应用场景，特别是在高精度场景理解任务中表现突出。该数据集通过提供帧级语义标注的相机图像和LiDAR点云数据，支持多种任务，如语义分割、深度估计、6自由度定位、地点识别和新视角合成。其多模态特性使得研究人员能够在复杂环境中进行全面的场景分析，为无人机在低空经济中的应用提供了强有力的数据支持。

衍生相关工作

UAVScenes数据集衍生了许多相关研究工作，特别是在多模态感知和场景理解领域。基于该数据集的研究成果包括改进的语义分割算法、高效的深度估计模型以及鲁棒的定位方法。此外，该数据集还促进了多模态融合技术的发展，为无人机在复杂环境中的自主导航和任务执行提供了新的解决方案。

数据集最近研究