UAV-VLPA-nano-30

github2025-02-01 更新2025-02-13 收录

下载链接：

https://github.com/Sautenich/UAV-VLA

下载链接

链接失效反馈

官方服务：

资源简介：

UAV-VLPA-nano-30数据集包含用于视觉语言模型训练和评估的卫星图像及其元数据。

The UAV-VLPA-nano-30 dataset contains satellite images and their corresponding metadata for training and evaluating vision-language models.

创建时间：

2025-01-14

原始信息汇总

UAV-VLA 数据集概述

数据集简介

UAV-VLA (Visual-Language-Action) 是一个用于与无人机进行通信的工具，它通过整合卫星图像处理、视觉语言模型（VLM）以及 GPT 的强大功能，使用户能够通过简单的文本请求生成通用的飞行路径和行动计划。

数据集包含

UAV-VLA 架构的实现。
数据集和基准详情。
在任务规划器中进行基于模拟的实验的代码。

基准数据

图像存储在文件夹 benchmark-UAV-VLPA-nano-30/images 中。
元数据文件包括 benchmark-UAV-VLPA-nano-30/img_lat_long_data.txt 和 benchmark-UAV-VLPA-nano-30/parsed_coordinates.csv。

安装要求

运行 Docker：

docker run --gpus all -it <imagename>
安装依赖：

pip -r requirements.txt

（需要至少 12GB VRAM）

生成任务

在 generate_plans.py 中添加 ChatGPT 的 API 密钥，然后运行：

python3 generate_plans.py

生成命令并保存在 /created_missions 文件夹中，同时在 /identified_new_data 文件夹中生成识别点的可视化图像。该脚本运行完毕后，可以查看 UAV-VLA 系统的总计算时间，约为 5 分钟 24 秒。

路径计划创建

运行以下命令查看 VLM 在基准上的结果：

python3 run_vlm.py

实验结果

运行 main.py 脚本，该脚本自动化生成坐标、计算轨迹长度和生成可视化。
运行脚本后，可以查看生成的文本文件、图像和轨迹长度及 RMSE 值的图表。

图表示例

轨迹条形图
错误箱线图
错误比较表

	Metric	KNN Error (m)	DTW RMSE (m)	Interpolation RMSE (m)
1	Mean	34.2218	307.265	409.538
2	Median	26.0456	318.462	395.593
3	Max	112.493	644.574	727.936

模拟视频

生成的任务在 ArduPilot 任务规划器环境中进行了测试，可查看模拟视频。

搜集汇总

数据集介绍

构建方式

UAV-VLPA-nano-30数据集的构建，依托卫星图像处理技术，融合了视觉语言模型(VLM)与GPT的自然语言处理能力，通过用户简单的文本请求生成通用飞行路径与动作计划。该数据集的构建不仅包含了卫星图像的丰富语境信息，还涉及了轨迹生成与动作计划的计算，旨在提升决策制定与任务规划的效率。

使用方法

使用UAV-VLPA-nano-30数据集，首先需要配置相应的环境，包括安装必要的依赖和运行docker容器。用户通过在generate_plans.py脚本中添加ChatGPT的API密钥，可以生成飞行命令，并存储在指定文件夹中。此外，通过运行main.py脚本，自动化生成坐标、计算轨迹长度、绘制可视化结果，以及生成叠加了坐标的图像，方便用户直观地比较系统性能。

背景与挑战

背景概述

UAV-VLPA-nano-30数据集隶属于UAV-VLA（Visual-Language-Action）系统的研究项目，该项目旨在通过整合卫星图像处理技术与视觉语言模型（VLM）以及GPT的自然语言处理能力，实现对空中机器人的便捷通信。该系统允许用户通过简单的文本请求生成通用的飞行路径与行动计划。UAV-VLPA-nano-30数据集的构建，为研究提供了丰富的情境信息，进而增强了决策制定与任务规划的能力。此数据集的研究成果已发表在Proc. ACM/IEEE Int. Conf. on Human Robot Interaction (HRI 2025)上，其方法在轨迹长度和目标定位准确性上显示出显著优势。该数据集由相关研究人员开发，并自2025年起对相关领域产生了积极影响。

当前挑战

在研究领域问题上，UAV-VLPA-nano-30数据集面临的挑战包括如何提高卫星图像处理的精确度，以及如何优化VLM和GPT的结合以生成更为准确的飞行路径与行动计划。在构建过程中，数据集的挑战主要体现在如何处理大规模卫星图像数据，保证数据的质量与一致性，以及如何在计算资源有限的情况下，实现高效的路径规划与任务生成。

常用场景

经典使用场景

在航空机器人研究领域，UAV-VLPA-nano-30数据集的典型应用场景是集成卫星图像处理、视觉语言模型（VLM）以及GPT的强大能力，使用户能够通过简单的文本请求生成通用飞行路径与行动计划。该数据集支持的研究系统在处理卫星图像提供的丰富上下文信息时，展现出优化的决策制定与任务规划能力，为用户提供了路径与行动集，从而提升了航空操作的效率与便捷性。

解决学术问题

UAV-VLPA-nano-30数据集解决了在航空任务规划中如何通过视觉与自然语言处理实现高效路径规划与目标定位的学术问题。该数据集通过减少轨迹长度和定位误差，显著提高了任务规划的准确性，为相关领域的研究提供了重要基准，推动了航空机器人技术的发展。

实际应用

在实际应用中，UAV-VLPA-nano-30数据集支持的研究成果已用于生成飞行任务计划，并在Mission Planner环境中进行了仿真测试。该数据集的应用有助于提高无人机执行复杂任务的能力，特别是在搜索与救援、环境监测以及地图制作等领域。

数据集最近研究