SpatialUAV

github2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/Hyu-Zhang/SpatialUAV

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialUAV是一个用于评估真实低空无人机场景中空间智能的基准数据集，涵盖感知、空间关系推理、空中-空中协作、空中-地面协作和无人机运动理解，以统一的视觉-问题-答案格式提供。它包含4,331个从真实低空无人机图像、视频和元数据中精心挑选的实例，涉及14种任务类型、7种视觉输入配置和9种答案格式。

创建时间：

2026-06-15

原始信息汇总

数据集概述

SpatialUAV 是一个用于评估低空无人机场景中空间智能的基准测试，涵盖感知、空间关系推理、空中-空中协作、空中-地面协作以及无人机运动理解，采用统一的视觉问答格式。

核心亮点

规模：包含 4,331 个精心整理的实例，来源于真实低空无人机图像、视频和元数据。
任务类型：涵盖 14 种任务类型，分为语义判别、空间关系、空中-空中协作、空中-地面协作和运动理解五大组。
输入配置：支持 7 种视觉输入配置，包括单张图像、成对视图、候选视图选择、注释图像和有序视频帧。
答案格式：包含 9 种答案格式，如选项标签、区域 ID、区域对、边界框、角度-距离值、移动方向和自由文本。
评估方法：针对异构输出采用任务特定评估，而非依赖单一的通用文本指标。

基准测试概览

组别	实例数	任务类型	主要能力
语义判别	599	区域识别、异常检测	识别查询对象和安全关键区域
空间关系	716	方向识别、距离比较	推断无人机视角下的方向和相对深度
空中-空中协作	1,231	协作识别、共享关联、对象匹配、相机变换、遮挡移除	跨多个无人机视角进行匹配和推理
空中-地面协作	785	共享关联、协作识别、视角转换、路径规划	对齐空中和地面观察
运动理解	1,000	全局运动	描述有序帧上的无人机/相机运动

数据格式

注释文件：JSONL 格式，每行为一个基准实例。
字段：包含 id（唯一标识）、image（图像路径列表）、conversations（问答对）、source（数据来源 "SpatialUAV"）和 GT（标准答案）。
目录结构：下载后数据应包含 annotations.jsonl、annotations_subset_20pct_per_task.jsonl 以及多个样本图像文件夹（如 samples_Single_Image、samples_A2A_Pured 等）。

使用流程

安装：克隆代码仓库并安装通用依赖。
下载数据：使用 Git LFS 从 Hugging Face 仓库下载数据集。
推理：通过统一脚本 run_spatialuav_inference.py 运行，支持 autodl、cambrian、internvl35、qwen、spatialvlm、vst 等后端。
评估：
- 对 13 种非运动任务，使用确定性、任务特定的规则进行评估（如集合匹配、精确选项准确率、IoU 等）。
- 对全局运动任务，使用 GPT-5.5-mini 评估语义相似度，返回归一化分数 [0, 1]。

相关引用与许可

论文：《SpatialUAV: Benchmarking Spatial Intelligence for Low-Altitude UAV Perception, Collaboration, and Motion》，发表于 arXiv:2606.27876。
代码许可：代码仓库采用 MIT 许可证。
数据许可：基准测试数据源自多个源数据集，受其原始条款约束，MIT 许可证不重新许可数据。

搜集汇总

数据集介绍

构建方式

在低空无人机视觉感知领域，空间智能的评估长期缺乏统一基准。SpatialUAV数据集从真实低空无人机影像、视频及其元数据中精心筛选出4,331个实例，涵盖语义判别、空间关系推理、机间协同、空地协同及运动理解五大能力维度，共计14种任务类型。构建流程融合了检测器辅助区域标注、深度监督信号、元数据驱动规则、人工精细注释、盲过滤及多轮校验，确保每一份样本均以统一的视觉输入—问题—答案三元组形式呈现，并支持单图像、配对视角、候选视角选择、带注释图像及有序视频帧等七种视觉配置。

使用方法

使用SpatialUAV时，研究者需从Hugging Face下载完整数据集，并按照指定目录结构存放图像帧与注释文件。推理阶段通过统一的脚本run_spatialuav_inference.py调用不同后端模型，支持Qwen、InternVL、Cambrian等多种视觉语言模型。评估阶段分为两部分：13个非运动任务采用确定性规则进行任务特定评分，如区域匹配的F1值、边界框的IoU等；全局运动任务则借助GPT-5.5-mini评估语义相似度。所有评估结果可汇总为JSON文件，便于横向比较与分析。

背景与挑战

背景概述

随着无人机在低空域场景中的广泛应用，如环境监测、灾害响应与物流配送，对无人机空间智能的需求日益迫切。然而，现有视觉语言模型在复杂三维空间中的感知、协作与运动理解能力仍存在显著不足。为填补这一空白，Haoyu Zhang、Meng Liu等研究者于2026年提出了SpatialUAV基准数据集。该数据集由香港城市大学等机构联合创建，包含4331个精心筛选的实例，覆盖语义判别、空间关系推理、空中-空中协作、空中-地面协作及运动理解五大能力组共14种任务类型。SpatialUAV以统一的视觉问答格式呈现，通过多样化的视觉输入配置与九种答案格式，系统性地评估模型在低空无人机场景下的空间智能，为相关领域的研究提供了标准化的评测平台与重要参考基线。

当前挑战

SpatialUAV所解决的领域核心挑战在于，现有视觉语言模型虽在目标识别等基础任务上表现良好，但面对跨视角关联、结构化空间定位、几何变换推理以及无人机时序运动理解等复杂空间推理任务时，性能显著下降，揭示了当前模型在三维空间智能方面的根本性瓶颈。在构建过程中，研究者面临的挑战包括：从真实低空无人机影像、视频与元数据中筛选并标注4331个高质量实例，需融合检测器辅助区域分割、深度监督、元数据规则推导与人工标注等多重手段；设计14种异构任务类型，每种任务对应特定评估协议，需避免单一文本指标的片面性；同时确保多轮验证与盲筛流程的严谨性，以维护基准评测的可靠性。

常用场景

经典使用场景

在低空无人机视觉感知与空间智能评估领域，SpatialUAV被广泛用于评测视觉语言模型（VLM）在真实无人机场景下的空间推理能力。该数据集涵盖语义判别、空间关系推理、空中与空地协同以及运动理解五大类14项任务，支持单图、多视角、带注释图像和有序视频帧等多种视觉输入格式。研究者通过统一的问题-答案模板，分别评测模型在区域识别、异常检测、方向判别、跨视角关联、遮挡推理和路径规划等子任务上的表现，从而全面刻画模型对低空三维场景的感知与理解水平。其任务导向的评估体系摒弃了单一文本指标的局限，为空间智能的量化诊断提供了精准工具。

解决学术问题

SpatialUAV解决了当前视觉语言模型在真实低空环境中空间智能评测缺失的学术空白。传统基准多聚焦于静态地面视角的视觉问答，而无人机场景涉及高度动态的视角变换、多机协同和时空关联，对模型的空间抽象与跨视角对应能力提出了独特挑战。该数据集通过构建设计精良的4331条实例，揭示了现有多模态大模型在跨视角物体匹配、摄像机变换参数估计、运动轨迹理解等任务上的显著短板，验证了仅靠通用视觉特征难以胜任低空空间推理。这一发现推动了学术界重新审视空间智能的核心要素，并催生了专用于无人机场景的空间感知模型设计范式。

实际应用

SpatialUAV的实际应用场景紧密围绕低空经济与智慧城市中的关键任务，包括无人机自主巡检、多机协同搜救、空地联合监测以及城市低空交通管理。例如，在灾害响应中，空中与地面视角的协同视点翻译和路径规划能力可辅助救援团队快速定位目标；在基础设施检测中，模型对区域异常和遮挡区域的识别能够提升自动化巡查的准确性。此外，该数据集还可服务于无人机自主编队飞行中的相对位置估计与协作感知，为开发具备空间理解能力的轻量化机载模型提供训练与验证地基，推动低空作业从远程遥控向自主智能的跨越。

数据集最近研究