UAVBench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/ZhanYang-nwpu/UAVBench

下载链接

链接失效反馈

官方服务：

资源简介：

UAVBench是一个低空无人机视觉语言任务的多模态大型语言模型评估基准，包含了大约966k高质量数据样本和43个测试单元，覆盖了10个图像级和区域级任务，包含了261k多空间分辨率和多场景图像。UAVIT-1M是一个指导调整数据集，包含约1.24百万种多样化的指令，覆盖了789k多场景低空无人机图像和约2000种空间分辨率，共包含11个不同任务。

UAVBench is a multimodal large language model evaluation benchmark for low-altitude unmanned aerial vehicle (UAV) vision-language tasks. It contains approximately 966k high-quality data samples and 43 test units, covering 10 image-level and region-level tasks, and includes 261k multi-spatial-resolution and multi-scenario images. UAVIT-1M is an instruction tuning dataset that includes around 1.24 million diverse instructions, covers 789k low-altitude UAV images across multiple scenarios and approximately 2000 spatial resolutions, and encompasses 11 distinct tasks.

创建时间：

2025-05-13

原始信息汇总

UAVBench 数据集概述

基本信息

许可证: Apache-2.0
语言: 英语 (en)

数据集简介

UAVBench 是首个用于评估多模态大语言模型 (MLLMs) 在低空无人机图像级别和区域级别理解与推理能力的视觉-语言基准。
包含约 966k 高质量数据样本 和 43 个测试单元，涵盖 10 种任务，涉及 261k 多空间分辨率和多场景图像。

数据集特点

UAVIT-1M 指令调优数据集:
- 包含约 1.24 百万条多样化指令。
- 涵盖 789k 多场景低空无人机图像 和约 2,000 种空间分辨率。
- 包含 11 种不同任务。
- 数据均为真实世界视觉图像，涵盖丰富天气条件，并经过人工采样验证以确保高质量。

更新动态

2025-05-13: 发布 UAVBench 基准和 UAVIT-1M 指令调优数据至 Hugging Face。
即将发布: 完整的评估代码和详细的低空无人机 MLLMs 模型推理教程。

联系方式

邮箱: zhanyangnwpu@gmail.com

搜集汇总

数据集介绍

构建方式

在低空无人机视觉语言理解领域，UAVBench数据集的构建采用了多维度、多任务的设计理念。研究团队精心收集了约96.6万高质量数据样本，涵盖26.1万张多空间分辨率、多场景的低空无人机图像，并通过43个测试单元和10项任务系统评估多模态大语言模型的性能。为确保数据质量，所有视觉图像均来自真实场景，并包含丰富的气象条件，同时经过人工抽样验证。

使用方法

该数据集为研究人员提供了标准化的评估框架，用户可通过下载完整的测试单元对模型进行系统评测。针对不同任务需求，可灵活选择图像级理解或区域级分析模块。配套发布的三个基线模型（LLaVA1.5-UAV、MiniGPTv2-UAV和GeoChat-UAV）为后续研究提供了可比较的参照体系，用户可基于这些预训练模型进行微调或开发新的评估方案。

背景与挑战

背景概述

UAVBench作为首个专注于低空无人机视觉语言理解与推理能力评估的基准数据集，由西北工业大学研究人员于2025年5月发布。该数据集旨在解决多模态大语言模型在无人机视觉任务中的性能评估难题，填补了该领域标准化评测体系的空白。其核心价值在于通过96.6万高质量样本和43个测试单元，系统性地覆盖10类图像级与区域级任务，涉及26.1万幅多空间分辨率、多场景的无人机图像，为低空智能感知研究提供了重要基础设施。配套发布的UAVIT-1M指令微调数据集包含124万条多样化指令，进一步拓展了模型训练维度，推动了无人机视觉语言理解技术的边界。

当前挑战

构建UAVBench面临双重技术挑战：在领域问题层面，低空无人机图像存在显著的小目标密集、多尺度变化和复杂背景干扰等特性，传统视觉语言模型难以准确捕捉此类场景的细粒度语义关联；在数据集构建层面，需解决多时空分辨率图像的标准化处理、跨场景语义标注一致性，以及极端天气条件下视觉特征鲁棒性验证等难题。该基准通过设计分层评估体系与人工采样验证机制，确保了对模型空间感知、场景推理等核心能力的科学量化，但其动态变化的低空环境仍对模型的泛化性能提出持续挑战。

常用场景

经典使用场景

在无人机视觉语言理解领域，UAVBench作为首个专注于低空无人机图像与区域级理解的多模态大语言模型评测基准，其经典使用场景集中在模型能力的系统性评估。该数据集通过精心设计的43个测试单元和10类任务，为研究者提供了验证模型在复杂低空场景下视觉问答、目标检测和空间关系推理等核心能力的标准化平台，特别是在多分辨率图像和多样化天气条件下的稳健性测试方面具有不可替代的价值。

解决学术问题

UAVBench有效解决了低空无人机视觉理解研究中缺乏标准化评估体系的痛点。通过涵盖261k张多空间分辨率图像和966k数据样本，该数据集为量化分析多模态大语言模型在航拍图像语义解析、小目标识别及跨模态对齐等关键问题上的表现提供了数据支撑，显著推进了无人机视觉认知智能的度量方法论研究，填补了该领域基准测试的空白。

实际应用

在实际应用层面，UAVBench支撑的模型评估体系已直接服务于城市巡查、农业监测等无人机典型任务场景。其包含的多场景图像和11类指令任务，能够有效验证模型在真实作业环境中的实用性，例如在电力巡检中识别细小绝缘子缺陷，或于农田监测时准确描述作物长势空间分布，为工业级无人机视觉系统的落地提供了可靠性验证依据。

数据集最近研究