UAV-CodeAgents Benchmark Dataset

Name: UAV-CodeAgents Benchmark Dataset
Creator: Skolkovo Institute of Science and Technology, Hong Kong Polytechnic University
Published: 2025-05-12 13:23:51
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

http://arxiv.org/abs/2505.07236v1

下载链接

链接失效反馈

官方服务：

资源简介：

UAV-CodeAgents数据集是一个用于像素级定位在航空和卫星图像中的语言实体的数据集，通过监督微调(SFT)方法，使用9,000张带注释的卫星图像对Qwen2.5VL-7B模型进行微调，以实现精确的航点提取。该数据集支持可重复研究和未来在可扩展的无人机自主性方面的研究。

The UAV-CodeAgents dataset is dedicated to pixel-level localization of language entities in aerial and satellite imagery. It fine-tunes the Qwen2.5VL-7B model with 9,000 annotated satellite images via supervised fine-tuning (SFT) to enable accurate waypoint extraction. This dataset supports reproducible research and future studies on scalable drone autonomy.

提供机构：

Skolkovo Institute of Science and Technology, Hong Kong Polytechnic University

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

UAV-CodeAgents Benchmark Dataset的构建基于多模态人工智能技术，结合了大规模语言模型（LLMs）和视觉语言模型（VLMs）的优势。数据集的构建过程包括对9,000张标注卫星图像的精细调优，通过监督微调（SFT）技术，实现了对语义目标的像素级精确定位。此外，数据集还整合了高层次的自然语言指令和卫星图像，支持多智能体协作生成无人机轨迹，确保了数据的高质量和实用性。

特点

该数据集的特点在于其高度精准的视觉语言接地能力，能够将自然语言指令与卫星图像中的具体坐标对应起来。数据集覆盖了多种复杂场景，如工业火灾检测和环境监测，支持动态任务适应和实时环境变化响应。其独特的像素指向机制和反应式思维循环（ReAct）进一步增强了数据集的适应性和可靠性，使其在无人机任务规划领域具有显著优势。

使用方法

UAV-CodeAgents Benchmark Dataset的使用方法包括通过多智能体框架进行任务分解和协作规划。用户可以通过输入自然语言指令和卫星图像，触发系统的视觉语言推理能力，生成精确的无人机飞行轨迹。数据集支持实时反馈和动态调整，适用于模拟和实际环境中的任务测试。此外，数据集还提供了丰富的标注信息和评估基准，便于用户进行模型训练和性能验证。

背景与挑战

背景概述

UAV-CodeAgents Benchmark Dataset由Skolkovo科学技术学院和香港理工大学的研究团队于2025年发布，旨在推动无人机自主任务规划领域的发展。该数据集作为多智能体框架UAV-CodeAgents的核心组成部分，专注于解决卫星图像与自然语言指令之间的语义对齐问题。通过融合视觉语言模型（VLMs）和大型语言模型（LLMs），数据集支持像素级地理空间定位和动态任务适应能力，显著提升了工业检测、环境火灾监测等场景下的无人机自主决策效率。其创新性的ReAct（推理+行动）范式为地理空间环境中的协作推理设立了新标准，相关成果发表于机器人顶会ICRA并开源完整代码库，对促进可扩展无人机自主系统的研究具有里程碑意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需突破传统无人机规划对预设地图的依赖，解决开放环境中视觉-语言跨模态理解的模糊性问题，特别是卫星图像低分辨率区域的目标定位误差可达像素级20-30px；在构建过程中，标注9,000张卫星图像需处理语义分割与坐标映射的复杂对应关系，其中动态火灾场景标注的时序一致性维护尤为困难。此外，多智能体协同规划产生的冲突决策（约占测试案例7%）要求设计新型评估指标以平衡规划可靠性与实时性，这些挑战共同构成了无人机自主系统从封闭环境向开放世界迁移的关键技术壁垒。

常用场景

经典使用场景

UAV-CodeAgents Benchmark Dataset在无人机任务规划领域展现了其经典应用场景。该数据集通过整合卫星图像与自然语言指令，为多智能体系统提供了精确的语义目标定位能力。在工业火灾检测和环境监测任务中，数据集支持无人机群协同生成飞行轨迹，实现了从高层级指令到像素级空间坐标的转化。其独特的视觉-语言联合推理机制，使得无人机能够在动态环境中实时调整任务策略，显著提升了复杂场景下的任务执行效率。

解决学术问题

该数据集有效解决了无人机自主任务规划中的关键学术问题。传统方法依赖预定义地图和手工启发式规则，难以适应开放环境的动态变化。通过引入基于ReAct范式的多智能体协作框架，数据集实现了对模糊语言指令的语义解析与空间锚定，突破了单智能体系统在协同决策上的局限性。其像素级指向机制为视觉-语言模型在航空图像分析领域的微调提供了标准化基准，填补了大规模无人机任务生成数据集的空白。

衍生相关工作

基于该数据集衍生的经典工作包括三大方向：在算法层面，UAV-VLPA*将A*路径规划与视觉语言理解结合，实现了动态障碍物规避；SwarmGPT利用语言模型驱动无人机群协同策略，发展了基于SDF的空间分配方法；WildfireGPT整合气候数据与检索增强生成技术，构建了模块化火灾风险评估框架。这些工作共同推动了多模态智能体在开放环境中的决策可靠性提升。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集