UAV-Flow
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://prince687028.github.io/UAV-Flow
下载链接
链接失效反馈官方服务:
资源简介:
UAV-Flow是一个针对语言条件下的精细UAV控制的真实世界基准数据集。它包括30,000个真实世界的飞行场景和10,000个模拟飞行场景,跨越三个大型校园环境,记录了100多个小时的飞行数据。该数据集旨在支持语言条件下的精细UAV控制,通过模仿人类飞行员的精确飞行轨迹,实现直接部署,无需仿真到现实的差距。
UAV-Flow is a real-world benchmark dataset for language-conditioned fine-grained UAV control. It includes 30,000 real-world flight scenarios and 10,000 simulated flight scenarios, spanning three large-scale campus environments, with over 100 hours of flight data recorded. This dataset aims to support language-conditioned fine-grained UAV control, enabling direct real-world deployment by imitating the precise flight trajectories of human pilots and eliminating the sim-to-real gap.
提供机构:
北京航空航天大学人工智能学院, 新加坡国立大学, 香港中文大学多媒体实验室, 北京航空航天大学杭州国际创新研究院
创建时间:
2025-05-22
原始信息汇总
UAV-Flow Colosseo 数据集概述
数据集基本信息
- 数据集名称: UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning
- 作者: Xiangyu Wang*, Donglin Yang*, Yue Liao*, Wenhao Zheng, Wenjun Wu, Bin Dai, Hongsheng Li, Si Liu†
- 机构:
- Institute of Artificial Intelligence, Beihang University
- National University of Singapore
- MMLab, CUHK
- Hangzhou International Innovation Institute of Beihang University
- 贡献说明: *Equal Contribution, †Corresponding authors
- 相关资源: Paper, Code, Dataset
数据集描述
- 主要内容: UAV-Flow 是一个用于语言条件无人机模仿学习的大规模真实世界数据集。
- 特点:
- 包含多个无人机平台
- 多样化的环境
- 广泛的细粒度飞行技能任务
- 附加资源:
- 基于模拟的评估协议
- 在真实无人机上部署的VLA模型
研究背景
- 研究问题: 语言引导的细粒度轨迹控制(Flying-on-a-Word, Flow任务)
- 研究方法: 无人机模仿学习框架,通过模仿专家飞行员轨迹与原子语言指令配对来学习细粒度控制策略
数据集贡献
- 任务形式化
- 多样化环境中收集的大规模数据集
- 可部署的控制框架
- 用于系统评估的模拟套件
实验结果
- VLA模型优于VLN基线
- 在细粒度Flow设置中,空间接地起关键作用
- 首次在开放环境中实现语言条件无人机控制的VLA系统真实世界部署
资源获取
- 数据、代码和真实飞行演示: https://prince687028.github.io/UAV-Flow
引用信息
bibtex @misc{wang2025uavflowcolosseorealworldbenchmark, title={UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning}, author={Xiangyu Wang and Donglin Yang and Yue Liao and Wenhao Zheng and wenjun wu and Bin Dai and Hongsheng Li and Si Liu}, year={2025}, eprint={2505.15725}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2505.15725}, }
搜集汇总
数据集介绍

构建方式
UAV-Flow数据集的构建采用了多阶段、多模态的采集与标注流程。在真实场景采集阶段,由具备800小时以上飞行经验的持证飞手,使用DJI Mavic 3T RTK等专业设备,在5.02平方公里范围的三个大学校园内执行语言指令驱动的飞行任务。通过同步记录4K第一视角视频与厘米级精度的6-DoF轨迹数据,构建了视觉-状态-动作三元组的基础数据单元。在标注阶段,采用人工审核与LLM增强的双重机制:专业标注团队首先筛选有效飞行片段,随后通过GPT系列模型对固定指令集进行语言多样性扩展,最终形成包含30,692条轨迹的标准化数据集。为弥补真实环境局限性,另基于UnrealCV仿真平台构建包含10,109条轨迹的UAV-Flow-Sim辅助数据集,采用人工操控与规则生成相结合的混合采集策略。
特点
该数据集的核心特征体现在三维空间的细粒度控制维度:首先,其独创性地定义了8类原子飞行技能(如盘旋、穿越、悬停等),通过短距(<20米)轨迹精准捕捉专家飞行员的动态响应模式;其次,采用双重指令体系设计,既包含"从右侧绕过树木"等空间锚定式指令,也涵盖"以30度角右移4米"等运动语义化指令,支持对VLA模型空间推理与运动理解的分离式评估;此外,数据集创新性地实现了真实场景与仿真环境的协议对齐,所有仿真轨迹均严格遵循真实数据的运动模式与任务分类体系,为消融研究提供可控实验条件。特别值得注意的是,数据采集过程通过多起始点执行策略,使相同指令产生空间异构的轨迹簇,有效增强了行为多样性。
使用方法
该数据集支持端到端的语言条件模仿学习框架应用。典型使用流程包含三个层级:在预处理阶段,需将全局GPS坐标转换为以起始点为原点的局部笛卡尔坐标系,并对齐视频帧与6-DoF状态的时间戳;模型训练阶段推荐采用ground-drone协同架构,将无人机实时传输的FPV视频流与状态数据输入基于Transformer的VLA模型(如OpenVLA-UAV或Pi-0-UAV),通过动作分块预测机制输出6-DoF控制指令;评估阶段可采用仿真环境中的SR(成功率)与NDTW(归一化动态时间规整)双指标体系,其中NDTW通过融合位置(x,y,z)与姿态余弦值构建6维轨迹向量,实现运动语义与几何精度的联合度量。对于真实场景部署,建议采用全局对齐的连续运动策略,利用前瞻机制补偿通信延迟,具体实现可参考论文提出的动作分块过滤算法。
背景与挑战
背景概述
UAV-Flow数据集由北京航空航天大学人工智能研究所、新加坡国立大学、香港中文大学MMLab等机构的研究团队于2025年提出,是首个专注于语言条件无人机精细控制模仿学习的真实世界基准。该数据集包含3万条真实飞行轨迹和1万条仿真轨迹,覆盖3个大规模校园场景,总记录时长超过100小时。其核心研究问题在于解决语言交互式无人机在短距离、反应式飞行行为中的精细轨迹控制难题,突破了传统视觉语言导航(VLN)任务仅关注高层规划的局限。该数据集通过专家飞行员轨迹与原子语言指令的精确配对,为视觉语言动作(VLA)模型在开放环境中的实际部署提供了关键支持,显著推动了无人机从自动化控制向语言交互智能的范式转变。
当前挑战
UAV-Flow面临的核心挑战体现在两个维度:在领域问题层面,传统VLN方法难以处理三维空间中的高自由度动态飞行控制,特别是语言指令与低层动作(如45度角移动5米)的精确映射;而数据构建过程中需克服多模态同步对齐的工程难题,包括厘米级精度的6-DoF轨迹重建、第一视角视频与空间语义的实时匹配,以及应对户外环境的光照变化、动态障碍物等干扰因素。此外,大型模型在无人机机载计算限制下的实时部署挑战催生了创新的地空协同推理框架,需平衡无线传输延迟与飞行控制稳定性。
常用场景
经典使用场景
UAV-Flow数据集在无人机模仿学习领域具有广泛的应用场景,尤其在语言引导的精细轨迹控制任务中表现突出。该数据集通过记录专业飞行员在多样环境中的飞行轨迹,结合原子级语言指令,为无人机模仿学习提供了丰富的训练样本。其经典使用场景包括无人机在复杂环境中的短距离反应式飞行行为,如绕过障碍物、悬停在特定目标上方等任务。这些场景不仅验证了无人机对语言指令的理解能力,还展示了其在动态环境中的实时控制性能。
解决学术问题
UAV-Flow数据集解决了无人机领域多个关键学术问题,尤其是在语言交互与低空飞行控制的结合方面。传统研究多集中于高空长距离导航,而该数据集填补了短距离精细控制的空白,强调了运动意图理解和空间上下文 grounding 两大核心能力。通过提供大量真实世界的飞行轨迹和语言指令对,该数据集为研究无人机如何将自然语言映射为可执行动作提供了坚实基础,显著推动了语言引导无人机控制的研究进展。
衍生相关工作
UAV-Flow数据集衍生了一系列经典研究工作,特别是在视觉-语言-动作(VLA)模型的适配与优化方面。基于该数据集,研究者们对Seq2Seq-UAV、CMA-UAV等传统视觉语言导航模型进行了改造,使其适应连续姿态输出的Flow任务。同时,OpenVLA-UAV和Pi-0-UAV等新型模型的出现,展示了VLA范式在无人机精细控制中的优越性。这些工作不仅扩展了数据集的学术影响力,还为无人机智能控制开辟了新的研究方向。
以上内容由遇见数据集搜集并总结生成



