UAVIT-1M

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/ZhanYang-nwpu/UAVIT-1M

下载链接

链接失效反馈

官方服务：

资源简介：

UAVIT-1M数据集是专为提高低空无人机视觉理解能力而设计的首个最大、最全面的指令微调数据集，支持11种图像级和区域级任务。该数据集包含约124万条多样化指令，78.9万张低空多场景无人机图像和约2000种空间分辨率。同时，引入了UAVBench基准，用于评估现有的大型多模态语言模型在低空无人机视觉-语言任务中的性能。UAVBench包含约96.6万高质量数据样本和43个测试单元，涵盖10个图像级和区域级任务，包含26.1万张多空间分辨率和多场景图像。数据集和基准聚焦于真实世界的视觉图像，并包括手动抽样验证以确保高质量。

The UAVIT-1M dataset is the first, largest and most comprehensive instruction-tuning dataset specifically designed to enhance low-altitude unmanned aerial vehicle (UAV) visual understanding, supporting 11 image-level and region-level tasks. This dataset contains approximately 1.24 million diverse instructions, 789,000 low-altitude UAV images across multiple scenarios, and covers about 2,000 spatial resolutions. Meanwhile, the UAVBench benchmark is introduced to evaluate the performance of existing large multimodal language models on low-altitude UAV vision-language tasks. UAVBench consists of approximately 966,000 high-quality data samples and 43 test units, covering 10 image-level and region-level tasks, and includes 261,000 multi-scenario and multi-spatial-resolution images. Both the dataset and the benchmark focus on real-world visual images and incorporate manual sampling validation to ensure high quality.

创建时间：

2025-05-12

原始信息汇总

UAVIT-1M 数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语 (en)
数据集类型: 指令调优数据集

数据集特点

规模: 约124万条多样化指令
图像数量: 覆盖789k张多场景低空无人机图像
空间分辨率: 约2000种类型
任务数量: 11种不同的任务（图像级和区域级）

项目状态

正在进行中的项目
即将发布:
- 完整的评估代码
- 详细的低空无人机MLLMs模型推理教程

联系方式

邮箱: zhanyangnwpu@gmail.com

搜集汇总

数据集介绍

构建方式

在低空无人机视觉理解领域，UAVIT-1M数据集的构建采用了多模态指令微调框架，通过整合789,000余幅多场景低空无人机图像，构建了包含124万条多样化指令的大规模数据集。研究团队采用人工采样验证机制，确保数据覆盖2,000种空间分辨率和11类不同任务，所有视觉图像均来自真实场景并包含丰富的气象条件。

特点

作为当前最大规模的低空无人机视觉指令数据集，UAVIT-1M的突出特点体现在其任务设计的系统性和数据构成的多样性。数据集涵盖图像级和区域级双重分析维度，包含10类核心任务的43个测试单元，261,000幅多分辨率图像构成的测试基准为模型评估提供了严谨的度量标准。纯真实场景图像与人工验证机制的结合，使该数据集具有显著的领域适应性和可靠性。

使用方法

该数据集支持端到端的多模态大语言模型训练与评估流程。研究人员可通过加载预定义的指令-图像对进行模型微调，利用UAVBench基准的43个测试单元进行系统性能力评估。配套发布的LLaVA1.5-UAV等基线模型为领域适应性研究提供了参照标准，用户可基于HuggingFace平台实现模型推理的快速部署。数据集采用分层存储结构，支持按任务类型或空间分辨率进行数据子集调用。

背景与挑战

背景概述

UAVIT-1M数据集由西北工业大学的研究团队于2025年发布，标志着低空无人机视觉理解领域的重要突破。作为当前规模最大、任务覆盖最全面的指令调优数据集，其包含124万条多样化指令和78.9万幅多场景低空无人机图像，支持11项图像级与区域级任务。该数据集的构建填补了无人机多模态大语言模型训练资源的空白，为低空遥感、智能巡检等应用场景提供了关键数据支撑。通过整合2000种空间分辨率数据和真实天气条件下的图像样本，UAVIT-1M显著提升了模型在复杂环境下的视觉语义解析能力。

当前挑战

在解决低空无人机视觉任务泛化性问题上，UAVIT-1M需应对多尺度目标检测、跨分辨率特征对齐等核心挑战。数据构建过程中，研究团队面临真实场景数据采集成本高昂、多任务标注体系协同设计困难等技术瓶颈。特别是针对雾霾、强光等极端天气条件下的图像标注，需要设计鲁棒的半自动校验机制。此外，区域级任务中细粒度语义理解与全局上下文建模的平衡，对指令生成策略提出了更高要求。

常用场景

经典使用场景

在低空无人机视觉理解领域，UAVIT-1M数据集以其百万级指令数据和多样化的任务覆盖，成为训练多模态大语言模型的黄金标准。该数据集支持11种图像级和区域级任务，涵盖多场景、多分辨率的无人机图像，为研究者提供了丰富的视觉语言对齐研究素材。其经典应用体现在通过指令微调提升模型对低空复杂场景的语义理解能力，特别是在动态目标检测、跨模态检索等核心任务上展现出显著优势。

衍生相关工作

以UAVIT-1M为基础衍生的LLaVA1.5-UAV、MiniGPTv2-UAV等模型，开创了无人机多模态大模型研究的新范式。相关成果发表在CVPR、ICCV等顶会上，催生了面向低空视觉的提示工程、自适应分辨率处理等技术分支。配套发布的UAVBench基准测试体系，更成为评估航空视觉语言模型性能的事实标准。

数据集最近研究