MM-UAVBench

github2026-01-18 更新2026-01-19 收录

下载链接：

https://github.com/AI9Stars/MM-UAVBench

下载链接

链接失效反馈

官方服务：

资源简介：

MM-UAVBench是一个全面的基准测试，旨在评估多模态大语言模型在低空无人机场景中的感知、认知和规划能力。它具有三个主要特点：1) 全面的任务设计，包括19个任务，涵盖三个关键能力维度，并特别包括多级认知（对象、场景和事件）和涉及空中和地面代理的规划；2) 多样化的现实世界场景，收集了来自不同数据源的真实无人机视频和图像，包括1549个视频片段和2873张图像，平均分辨率为1622×1033；3) 高质量的人工标注，手动标注了16个任务，另外3个任务来自手动标签的基于规则的转换，总共产生了5702个多项选择题。

MM-UAVBench is a comprehensive benchmark designed to evaluate the perception, cognition and planning capabilities of multimodal large language models (LLMs) in low-altitude unmanned aerial vehicle (UAV) scenarios. It has three core features: 1) Comprehensive task design, which includes 19 tasks covering three key capability dimensions, with special inclusion of multi-level cognition (object, scene and event) and planning involving both aerial and ground agents; 2) Diverse real-world scenarios, where real UAV videos and images are collected from diverse data sources, including 1549 video clips and 2873 images with an average resolution of 1622×1033; 3) High-quality manual annotations: 16 tasks are manually labeled, and the remaining 3 tasks are derived from rule-based conversions of manual labels, resulting in a total of 5702 multiple-choice questions.

创建时间：

2025-12-26

原始信息汇总

MM-UAVBench 数据集概述

数据集简介

MM-UAVBench 是一个全面的基准测试，旨在评估多模态大语言模型在低空无人机场景下的感知、认知和规划能力。

核心特点

1. 全面的任务设计

涵盖三个关键能力维度，共包含 19 项任务。
融入了无人机特有的考量，特别包括多层次认知（对象、场景和事件）以及涉及空中和地面智能体的规划任务。

2. 多样化的真实世界场景

从多样化数据源收集了真实世界的无人机视频和图像。
包含 1549 个视频片段和 2873 张图像。
平均分辨率为 1622 × 1033。

3. 高质量的人工标注

手动标注了 16 项任务，另有 3 项任务来自对人工标注的基于规则的转换。
总共生成了 5702 个多项选择题问答对。

数据发布说明

对于标注为“video_frames”数据类型的任务，当前发布版本仅包含关键帧；完整的视频片段将很快发布。

数据集获取

数据集可通过 Hugging Face 获取：https://huggingface.co/datasets/daisq/MM-UAVBench

引用

如果 MM-UAVBench 对您的研究或应用有所帮助，请考虑引用相关论文。

搜集汇总

数据集介绍

构建方式

在无人机低空场景智能化的研究背景下，MM-UAVBench的构建遵循了严谨的工程与学术规范。该数据集通过整合来自多个真实来源的无人机视频与图像素材，涵盖了总计1549个视频片段和2873张图像，平均分辨率达到1622×1033像素，确保了数据在视觉细节与场景多样性上的丰富性。其标注过程融合了高质量的人工标注与基于规则的自动化处理，针对所设计的19项任务，研究团队手动完成了其中16项任务的精细标注，并对其余3项任务通过规则转换生成了相应标签，最终形成了包含5702道多项选择题的标准化问答对，为评估模型在复杂动态环境中的能力提供了扎实的数据基础。

使用方法

为便于研究社区对该数据集进行标准化评估，MM-UAVBench提供了与VLMEvalKit工具集成的完整评测流程。使用者首先需克隆项目代码库并安装依赖环境，随后将数据集加载脚本配置至评测框架中。数据集本身可通过Hugging Face平台获取，下载后需在环境变量中指定其本地存储路径。评测时，用户在配置文件中设定待评估模型的检查点路径，并通过命令行工具指定评估模式与结果输出目录，即可自动化地运行针对图像与视频两类数据的多任务性能测试，从而获得模型在各项能力维度上的量化结果，为后续的模型比较与能力分析提供可靠依据。

背景与挑战

背景概述

随着多模态大语言模型在通用视觉理解任务上展现出卓越性能，其在垂直领域，特别是低空无人机场景下的感知、认知与规划能力亟待系统评估。MM-UAVBench 基准由相关研究团队于2025年创建，旨在填补这一研究空白。该数据集汇聚了来自多元真实场景的1549个视频片段与2873张图像，并精心构建了涵盖19项任务的评估体系，着重考察模型在对象、场景、事件等多层次认知以及涉及空中与地面智能体的规划能力。其高质量的人工标注与规则转换相结合，产生了总计5702道多项选择题，为深入探究MLLMs在复杂动态环境中的实际性能提供了关键数据支撑，对推动无人机自主智能与具身智能研究具有重要影响力。

当前挑战

MM-UAVBench 所针对的核心领域挑战在于，如何系统评估多模态大语言模型在低空无人机这一特定、动态且视角独特的操作环境下的综合能力。传统基准往往缺乏对无人机视角下时空信息理解、多智能体交互规划等专业任务的覆盖。在数据集构建过程中，研究团队面临多重挑战：一是需从多样化的真实数据源中收集并整合高质量、高分辨率的无人机视觉数据，确保场景的多样性与现实代表性；二是设计并标注一套能够精准衡量感知、认知、规划三维能力的复杂任务体系，特别是涉及事件推理与多智能体协同的规划任务，这对标注的准确性与一致性提出了极高要求。

常用场景

经典使用场景

在无人机低空场景的智能感知与决策研究中，MM-UAVBench数据集被广泛应用于评估多模态大语言模型的综合能力。该数据集通过涵盖感知、认知与规划三个维度的19项任务，为研究者提供了系统性的测试平台。经典使用场景包括利用无人机采集的真实世界图像与视频，对模型进行物体识别、场景理解及事件推理等多层次认知任务的评估，同时模拟空中与地面智能体的协同规划过程，以检验模型在复杂动态环境中的实际表现。

解决学术问题

MM-UAVBench数据集主要解决了多模态人工智能在低空无人机领域中的能力量化难题。传统评估往往局限于单一模态或静态场景，而该数据集通过整合1549段视频剪辑与2873张高分辨率图像，并辅以5702道高质量人工标注的多选题，为学术界提供了衡量模型感知细粒度、认知深度及规划合理性的统一标准。其意义在于推动了多模态大语言模型在动态、开放环境中的适应性研究，为无人机自主系统的智能升级奠定了实证基础。

实际应用

该数据集的实际应用场景紧密关联于低空无人机智能系统的开发与优化。例如，在物流配送、农业监测、城市安防等垂直领域，无人机需实时解析视觉信息并做出合理决策。MM-UAVBench通过模拟真实世界中的多样场景，如交通流分析、异常事件检测、路径规划等，能够帮助工程师评估与改进机载AI模型的可靠性。这些测试直接助力于提升无人机在复杂环境中的自主运行能力，降低人工干预需求。

数据集最近研究