UAV-Track VLA

Name: UAV-Track VLA
Creator: 北京理工大学; 中国科学院·自动化研究所; 三亚大学; 北京邮电大学; 湖南大学; 北京航空航天大学
Published: 2026-04-03 00:33:38
License: 暂无描述

arXiv2026-04-03 更新2026-04-04 收录

下载链接：

https://github.com/Hub-Tian/UAV-Track_VLA

下载链接

链接失效反馈

官方服务：

资源简介：

UAV-Track VLA是由北京理工大学、中国科学院自动化研究所等机构联合构建的首个面向城市复杂场景的无人机视觉-语言-动作追踪基准数据集。该数据集基于CARLA仿真平台构建，包含89.2万帧多模态轨迹数据，覆盖85类动态目标（如车辆、行人）和176项细粒度追踪任务，支持自然语言指令输入与四自由度连续运动控制。数据通过专家演示与人工势场算法混合采集，涵盖动态天气、全距离追踪及目标运动学多样性，旨在解决无人机在语义级动态追踪中的跨模态对齐与实时控制问题，为城市交通监控、紧急搜救等场景提供算法训练基础。

UAV-Track VLA is the first benchmark dataset for unmanned aerial vehicle (UAV) vision-language-action tracking in complex urban scenarios, jointly constructed by institutions including Beijing Institute of Technology and the Institute of Automation of the Chinese Academy of Sciences. Built on the CARLA simulation platform, this dataset contains 892,000 frames of multimodal trajectory data, covering 85 categories of dynamic objects (e.g., vehicles, pedestrians) and 176 fine-grained tracking tasks, and supports natural language instruction input and four-degree-of-freedom continuous motion control. Collected via a hybrid approach combining expert demonstrations and artificial potential field algorithms, the dataset covers dynamic weather, full-range tracking, and diverse target kinematics. It aims to address the cross-modal alignment and real-time control issues in semantic-level dynamic tracking for UAVs, providing a foundational resource for algorithm training in scenarios such as urban traffic monitoring and emergency search and rescue.

提供机构：

北京理工大学; 中国科学院·自动化研究所; 三亚大学; 北京邮电大学; 湖南大学; 北京航空航天大学

创建时间：

2026-04-03

搜集汇总

数据集介绍

构建方式

在无人机具身视觉追踪领域，构建高质量的多模态数据集是推动模型发展的关键。UAV-Track VLA数据集依托CARLA仿真平台，采用专家演示与自动化算法相结合的混合采集策略。研究团队首先由人类专家操控无人机收集高质量的示范轨迹，为模型提供空间推理的基准和复杂场景的应对策略。随后，部署基于人工势场法的自动化算法进行大规模数据增强，通过在控制指令中动态注入随机扰动并生成恢复路径，有效缓解了端到端模仿学习中常见的协变量偏移问题，显著提升了闭环系统的鲁棒性。最终，数据集汇集了超过89万帧的多模态轨迹数据，涵盖了85个多样化目标与176项细粒度追踪任务。

特点

该数据集在场景覆盖与任务设计上展现出多维度的综合性。其环境多样性覆盖了动态天气、全天候光照条件以及乡村、城市、高速公路等多种拓扑场景。目标类别不仅包含车辆与行人，还细化了性别、年龄、颜色等属性，运动模式涵盖了从静止到高速（0-70米/秒）的广泛动力学范围。尤为突出的是，数据集引入了数百条自然语言指令，支持对空间介词（如“近距离”、“合适距离”）的细粒度理解与评估，实现了跨模态的任务泛化。与现有基准相比，它是首个全面支持自然语言引导与四自由度连续运动的无人机具身追踪基准，在场景泛化与任务普适性上优势显著。

使用方法

该数据集主要用于训练与评估面向复杂城市场景的视觉-语言-动作模型。在使用时，模型接收的输入包括描述目标外观与飞行意图的自然语言指令、包含当前帧与历史帧的视觉观测序列，以及无人机的本体感知状态。模型需要同步完成两项核心输出：预测目标在无人机中心坐标系下的三维相对位姿，以及生成未来25步的连续位移控制序列。评估体系围绕闭环追踪的鲁棒性设计，核心指标包括成功率和平均追踪帧数，其中成功判定严格依赖于目标是否持续偏离有效距离范围或离开视野超过容忍阈值。该基准支持在已见与未见地图上进行性能测试，能够全面衡量模型在跨模态对齐、连续控制能力及零样本泛化方面的表现。

背景与挑战

背景概述

随着无人机在复杂现实任务中应用日益广泛，具身视觉跟踪成为实现自主感知与决策的核心能力。传统无人机视觉跟踪多依赖后端被动检测与人工操控的分离范式，难以适应动态城市环境中语义化、连续化的任务需求。在此背景下，北京理工大学、中国科学院自动化研究所等机构的研究团队于2026年提出了UAV-Track VLA数据集，旨在构建首个面向城市场景、支持自然语言引导的无人机具身视觉跟踪基准。该数据集基于CARLA仿真平台构建，涵盖超过89万帧图像、85类异构目标及176项细粒度跟踪任务，通过融合视觉、语言与动作模态，推动视觉-语言-动作模型在无人机动态跟踪领域的应用，为高阶语义交互与连续运动控制的端到端学习提供了关键数据支撑。

当前挑战

该数据集致力于解决无人机具身视觉跟踪中语义指令理解与连续动作生成的协同挑战。在领域层面，现有方法多局限于视觉到动作的直接映射，缺乏对自然语言指令的高层语义解析能力，难以在动态城市场景中实现目标语义锁定与自适应跟踪。构建过程中，研究团队面临多重挑战：一是需在仿真环境中高效生成涵盖车辆、行人等异构目标的大规模轨迹数据，并保证运动模式与真实场景的物理一致性；二是需设计细粒度的语言指令体系，以支持对距离、目标属性等空间关系的精确描述；三是需克服现有视觉-语言-动作模型在时序特征提取上的不足，避免因帧间冗余导致计算效率下降，从而满足无人机实时高频控制的需求。

常用场景

经典使用场景

在无人机自主跟踪研究领域，UAV-Track VLA数据集为视觉-语言-动作模型的训练与评估提供了标准化基准。该数据集通过模拟复杂城市动态场景，构建了包含超过89万帧图像、176项任务和85类多样化目标的丰富语料库，支持模型学习从自然语言指令到连续飞行控制动作的端到端映射。其经典应用场景聚焦于指令驱动的无人机主动视觉跟踪，模型需同时理解如“近距离跟踪蓝色车辆”等语义指令，并实时预测目标相对位姿与无人机连续位移序列，实现语义锁定与物理跟随的协同。

衍生相关工作

该数据集的推出催生了一系列围绕无人机具身跟踪与VLA模型优化的衍生研究。在架构改进方面，受其启发的后续工作进一步探索了时序特征压缩、空间几何先验注入等模块设计，以提升动态目标跟踪的稳定性。在基准拓展上，研究者基于类似的仿真数据收集流程，构建了更多专注于极端天气、密集遮挡等挑战性场景的评估数据集。同时，数据集中体现的指令泛化与零样本迁移能力，也激励了跨模态表征学习、仿真到真实迁移等方向的方法创新，共同推动了无人机自主智能系统的技术发展。

数据集最近研究