UAVBench

github2025-11-17 更新2025-11-19 收录

下载链接：

https://github.com/maferrag/UAVBench

下载链接

链接失效反馈

官方服务：

资源简介：

UAVBench是一个开放的、基于物理的基准数据集，用于评估由大型语言模型增强的自主空中系统。它提供了一个统一的框架，用于生成、验证和推理无人机飞行场景，包含50,000个经过验证的无人机飞行场景和50,000个多项选择题，涵盖空气动力学、导航、伦理决策等十个推理领域。

UAVBench is an open, physics-based benchmark dataset for evaluating autonomous aerial systems augmented by large language models (LLMs). It offers a unified framework for generating, validating, and reasoning over unmanned aerial vehicle (UAV) flight scenarios, and contains 50,000 validated UAV flight scenarios and 50,000 multiple-choice questions covering ten reasoning domains including aerodynamics, navigation, ethical decision-making, and more.

创建时间：

2025-11-05

原始信息汇总

UAVBench 数据集概述

数据集基本信息

数据集名称：UAVBench
研究论文：https://arxiv.org/pdf/2511.11252
核心定位：面向自主无人机系统和基于大语言模型的智能体AI评估的开放式基准数据集

数据集构成

主要数据集

UAVBench：包含50,000个经过验证的无人机飞行场景
UAVBench_MCQ：包含50,000个多项选择题，涵盖十种推理风格

核心特性

统一无人机场景模式

采用数学定义的模式将每个无人机任务编码为结构化元组
集成仿真动力学、车辆配置、环境条件和任务目标
确保互操作性、物理有效性和语义多样性

分类引导的场景生成

基于分类驱动的大语言模型提示方法
从任务类型、空域配置、天气条件和无人机设计的因子化空间中采样
生成50,000个经过验证的安全感知飞行场景

多阶段验证和风险标注

模式验证
物理和几何一致性检查
安全和危险感知风险评分
定量风险级别和分类标签标注

结构化推理基准

UAVBench_MCQ涵盖十个无人机推理领域：

空气动力学与物理学
导航与路径规划
政策与合规性
环境感知
多智能体协调
网络物理安全
能源管理
伦理决策
比较系统
混合集成推理

数据格式与内容

UAVBench数据特征

统一的无人机飞行场景模式
集成空域配置、天气条件、无人机动力学和载荷规格
载荷分类涵盖各种传感器类型
多阶段风险标注管道确保几何、物理和操作一致性

UAVBench_MCQ数据特征

机器可读、逻辑一致的推理任务
与现实世界无人机操作对齐
每个问题包含场景描述、问题、选项、正确答案和推理过程

数据集下载

UAVBench数据集：https://github.com/maferrag/UAVBench/blob/main/data/UAVBench_scenarios.zip
UAVBench_MCQ数据集50K：https://github.com/maferrag/UAVBench/blob/main/data/UAVBench_MCQ_dataset.zip
UAVBench_MCQ数据集2K验证版：https://github.com/maferrag/UAVBench/blob/main/data/UAVBench_MCQ_Dataset_2k_(Validated).zip

研究目标

评估大语言模型生成的无人机场景如何保持物理一致性和安全感知
确保可解释和风险标注的无人机任务方法
评估无人机自主性的伦理和认知维度
分析模型架构对基础推理和决策可靠性的影响

应用价值

为无人机自主性中的认知和伦理推理建立可重现、可解释和物理基础的基础
支持大语言模型在无人机上下文中的认知、伦理和操作推理能力评估
实现系统化评估智能体AI在任务规划、感知和决策制定中的推理能力

搜集汇总

数据集介绍

构建方式

在无人机自主系统研究领域，UAVBench采用分类学引导的大语言模型提示技术生成飞行场景，通过多阶段验证确保物理一致性与安全性。该数据集构建了统一的数学化场景模式，涵盖飞行器配置、环境参数与任务目标等维度，并经过模式验证、几何一致性检查和风险标注流程，最终形成五万个经过严格验证的飞行场景。

特点

该数据集具有高度结构化的特征体系，每个场景均包含详细的无人机动力学参数、传感器配置与空域约束信息。其独特之处在于通过量化风险等级和分类标签实现安全感知，同时配备五万个涵盖十类推理风格的多选题扩展集，从空气动力学到伦理决策的多元维度为认知评估提供支撑。

使用方法

研究人员可通过下载标准化数据包获取场景配置文件与多选题数据集，利用JSON格式的结构化数据开展自主系统验证。该数据集支持在物理仿真环境中部署飞行场景，并通过多选题模块系统评估大语言模型的推理能力，为无人机认知架构开发提供基准测试框架。

背景与挑战

背景概述

随着无人机系统在自主决策领域日益依赖大语言模型，传统基准数据集因物理一致性缺失与任务范围局限而难以满足评估需求。UAVBench由Mohamed Amine Ferrag等学者于2025年提出，通过构建五万个经过多阶段验证的飞行场景与对应多选题库，系统化解决无人机在复杂环境中的认知推理与伦理决策问题。该数据集通过统一架构融合空气动力学约束、动态障碍物交互及多模态传感器配置，为自主航空系统的可靠性与安全性评估奠定了标准化基础。

当前挑战

在领域问题层面，无人机自主系统需克服物理环境动态性与多目标决策的耦合挑战，例如强风扰动下的路径规划与突发故障的应急响应。构建过程中，确保生成场景的物理可行性成为核心难点，需通过模式化验证流程解决几何一致性校验与风险标签量化问题。同时，保持五万规模数据在传感器参数、能源模型与空域规则间的逻辑自洽，要求严格的模式约束与实时计算资源协调。

常用场景

经典使用场景

在无人机自主系统领域，UAVBench作为基准数据集广泛应用于评估大语言模型在复杂飞行场景中的认知推理能力。其经典使用场景包括模拟多旋翼无人机在港口雾天环境下的基础设施巡检任务，通过集成空气动力学约束、动态障碍物规避和突发故障应对等要素，系统验证智能体在路径规划与实时决策中的物理一致性。该数据集通过五万个经过多阶段验证的飞行场景，为无人机自主系统的训练与评估提供了标准化测试平台。

实际应用

在民用无人机领域，该数据集支撑了城市空中交通管理的智能决策系统开发。其包含的传感器配置与气象条件参数可直接应用于物流配送、农业监测等实际场景的仿真测试。通过模拟GNSS干扰与电机故障等突发状况，为工业级无人机的容错控制系统提供了验证环境，同时其结构化风险评估体系已被用于制定无人机适航认证的测试标准。

衍生相关工作

基于该数据集衍生的经典研究包括多模态大语言模型在无人机集群控制中的迁移学习框架，以及结合强化学习的动态路径规划算法。其MCQ扩展模块催生了面向航空伦理的认知推理基准测试，推动了跨模态感知与符号推理的融合研究。相关成果已延伸至空中交通管理系统的数字孪生构建，为下一代自主航空器的认证体系提供了技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集