UAVScenes

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/sijieaaa/UAVScenes

下载链接

链接失效反馈

官方服务：

资源简介：

UAVScenes是一个基于MARS-LVIG扩展的多模态无人机数据集，提供了手动标注的图像和LiDAR点云语义注释，以及准确的6自由度位姿信息。该数据集适用于无人机检测、分割、深度估计、6自由度定位、地点识别和新型视图合成等多种感知任务。数据集包括4个大场景，每个场景包含多个运行。

UAVScenes is a multi-modal unmanned aerial vehicle (UAV) dataset extended from MARS-LVIG. It provides manually annotated images, semantic annotations for LiDAR point clouds, as well as accurate 6-degree-of-freedom (6DoF) pose information. This dataset supports a variety of perception tasks including UAV detection, segmentation, depth estimation, 6DoF localization, place recognition, and novel view synthesis. The dataset consists of four large-scale scenes, each containing multiple runs.

创建时间：

2025-08-04

原始信息汇总

UAVScenes数据集概述

基本信息

数据集名称: UAVScenes
发布会议: ICCV 2025
论文链接: arXiv
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

数据集简介

UAVScenes是一个大规模多模态无人机数据集，基于MARS-LVIG数据集构建。该数据集提供了图像和LiDAR点云的手动标注语义注释，以及精确的6自由度（6-DoF）位姿，支持多种无人机感知任务。

数据集内容

标注类型:
- 图像语义标注
- LiDAR点云语义标注（共120k标注对）
- 6-DoF位姿
传感器数据:
- Hikvision相机图像
- Livox Avia LiDAR点云
3D重建数据:
- 重建的3D点云/网格地图

下载信息

完整数据集: 间隔为1
关键帧数据集: 间隔为5（大小为完整数据集的1/5）
下载平台:
- OneDrive
- Google Drive
- Baidu/百度网盘（仅关键帧数据集）
- HuggingFace（仅关键帧数据集）

文件信息

颜色映射: cmap.py
相机-LiDAR标定: calibration_results.py
相机-3D地图标定: sampleinfos_interpolated.json
3D地图数据:
- terra_ply/: 原始网格地图输出
- cloud_merged.ply: 原始点云地图输出
- Mesh.ply: 合并后的网格地图

数据集结构

场景数量: 4个（AMtown, AMvalley, HKairport, HKisland）
每个场景包含: 多个运行（如01, 02, 03）

标注工具

2D标注: X-AnyLabeling
3D标注: CloudCompare
3D重建: DJI Terra

引用

bibtex @article{wang2025uavscenes, title={UAVScenes: A Multi-Modal Dataset for UAVs}, author={Wang, Sijie and Li, Siqi and Zhang, Yawei and Yu, Shangshu and Yuan, Shenghai and She, Rui and Guo, Quanjiang and Zheng, JinXuan and Howe, Ong Kang and Chandra, Leonrich and others}, journal={arXiv preprint arXiv:2507.22412}, year={2025} }

注意事项

许可限制: 仅限学术使用

搜集汇总

数据集介绍

构建方式

在无人机多模态感知研究领域，UAVScenes数据集基于精心校准的MARS-LVIG数据集进行深度扩展。通过采用X-AnyLabeling工具对图像进行精细标注，并利用CloudCompare平台完成激光雷达点云的语义分割，同时集成DJI Terra高精度三维重建技术生成密集点云与网格地图。该构建过程融合了手动标注与先进算法，确保了120,000对图像-点云标注数据的高质量与一致性，为多模态研究奠定了坚实基础。

特点

UAVScenes作为首个同时提供图像与激光雷达点云语义标注的无人机基准数据集，涵盖四个大规模场景的多样化飞行轨迹。其特色在于提供六自由度精确定位数据、多传感器校准参数以及三维重建地图，支持检测、分割、深度估计、位姿估计和新颖视角生成等多维任务。数据集包含完整序列与关键帧两种版本，兼顾研究效率与数据完整性，显著推动了无人机多模态感知的算法验证与创新。

使用方法

研究者可通过云端平台获取数据集，依据任务需求选择完整序列或关键帧子集。数据文件包含传感器标定参数、颜色映射表及三维地图资源，需通过配套脚本解析标注格式。使用时需遵循CC BY-NC-SA 4.0许可协议，仅限学术用途。该数据集支持端到端的多任务学习 pipeline，可直接应用于2D/3D检测分割模型的训练评估，亦可结合位姿数据开展SLAM与视觉定位研究。

背景与挑战

背景概述

无人机感知技术作为计算机视觉与机器人学交叉领域的重要研究方向，近年来在环境建模、自主导航等应用中展现出巨大潜力。UAVScenes数据集由香港大学等机构的研究团队于2025年构建，基于精心校准的多模态无人机数据集MARS-LVIG进行扩展，首次同时提供图像与激光雷达点云的精细化语义标注。该数据集包含四个大型场景的飞行数据，配备六自由度位姿真值与三维重建地图，为多模态感知研究建立了新的基准。

当前挑战

该数据集致力于解决无人机在复杂环境中多模态感知的协同挑战，包括跨模态数据融合、动态场景理解与精确位姿估计等核心问题。构建过程中面临标注一致性与精度保障的双重挑战：需协调2D图像与3D点云的人工标注标准，确保跨模态语义标签的空间一致性；同时通过专业测绘工具实现厘米级精度的位姿标注与三维重建，克服了大规模户外场景的数据采集与校准难题。

常用场景

经典使用场景

在无人机自主感知研究领域，UAVScenes数据集通过提供精确的6自由度位姿和跨模态标注信息，成为多任务学习的基准平台。研究者广泛利用其12万组图像与激光雷达点云标注对，开展同步定位与建图、三维目标检测及语义分割等核心任务的性能评估，显著推动了视觉-激光雷达融合算法在复杂户外环境中的鲁棒性研究。

实际应用

UAVScenes数据集的实际应用涵盖城市巡检、基础设施监测与环境建模等多个领域。其包含的机场、岛屿、城镇等多场景数据，可用于训练无人机自主导航系统，提升在GPS拒止环境下的定位精度；同时支持电力巡检、灾害评估等垂直行业的三维场景重建与语义理解需求。

衍生相关工作

基于UAVScenes衍生的研究主要集中在多模态融合架构创新上，例如跨模态特征对齐网络、激光雷达增强的新视角生成模型等。该数据集亦催生了针对无人机特定挑战的解决方案，如动态物体过滤、大尺度场景语义分割等方向，为ICCV 2025后续研究提供了基础支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集