AerialVG

Name: AerialVG
Creator: 西北工业大学, 上海人工智能实验室, 浙江大学, TeleAI
Published: 2025-04-10 23:13:00
License: 暂无描述

arXiv2025-04-10 更新2025-04-12 收录

下载链接：

https://github.com/Ideal-ljl/UAVVG

下载链接

链接失效反馈

官方服务：

资源简介：

AerialVG数据集是由西北工业大学、上海人工智能实验室、浙江大学和TeleAI共同创建的高分辨率 aerial 视觉定位数据集，包含5000张真实世界航拍图像和50K手动注释描述。该数据集的特色是标注了每个目标对象之间的相对空间关系，有助于模型进行综合空间推理，以应对航拍视觉定位的挑战。数据集应用领域主要涉及无人机智能感知和自主导航技术，适用于紧急救援、物流和生态监测等领域。

AerialVG Dataset is a high-resolution aerial visual positioning dataset co-developed by Northwestern Polytechnical University, Shanghai AI Laboratory, Zhejiang University, and TeleAI, which contains 5000 real-world aerial images and 50K manually annotated descriptions. The distinguishing feature of this dataset is that it annotates the relative spatial relationships between each target object, which enables models to conduct comprehensive spatial reasoning to address the challenges in aerial visual positioning. Its main application fields involve unmanned aerial vehicle (UAV) intelligent perception and autonomous navigation technologies, and are applicable to scenarios such as emergency rescue, logistics, and ecological monitoring.

提供机构：

西北工业大学, 上海人工智能实验室, 浙江大学, TeleAI

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

AerialVG数据集的构建基于VisDrone2019数据集，精选了5,000张高分辨率无人机航拍图像，覆盖多样化的城市环境。通过人工标注，数据集包含了50,000条精细的自然语言描述和103,000个目标对象的边界框，特别强调了目标对象之间的相对空间关系。标注过程严格遵循第一人称视角原则，将空间关系划分为八种基本类别，并优先选择显著辅助对象以确保定位精度。

特点

AerialVG数据集以其高分辨率和广阔的视野著称，图像分辨率普遍超过1000×500像素，显著提升了空中视觉定位任务的挑战性。数据集中的标注不仅包含目标对象的精细特征（如颜色、车型等），还着重描述了对象间的空间位置关系，形成了丰富的多模态数据。与传统的视觉定位数据集相比，AerialVG在文本描述复杂度、目标对象密度及无关区域占比等方面均体现出更高的难度，为空间推理研究提供了理想平台。

使用方法

该数据集适用于端到端的空中视觉定位模型开发，尤其适合验证模型在复杂空间关系理解方面的性能。研究者可利用提供的边界框标注和自然语言描述，训练模型进行目标检测与空间关系推理。数据集中层次化的视觉特征和关系标注支持Hierarchical Cross-Attention等先进注意力机制的实现，而Relation-Aware Grounding模块可基于对象对特征进行空间关系建模。实验时建议采用Top-1和Top-5准确率双重评估指标，以全面衡量模型在对象区分和空间推理上的能力。

背景与挑战

背景概述

AerialVG数据集由上海人工智能实验室、西北工业大学和浙江大学等机构的研究团队于2025年提出，旨在解决无人机视角下的视觉定位（Visual Grounding）问题。该数据集包含5,000张高分辨率航拍图像、50,000条人工标注描述和103,000个目标对象，特别强调了目标间的空间关系标注。作为首个面向航拍视觉定位的基准数据集，AerialVG推动了无人机智能感知与自主导航技术的发展，在应急救援、物流配送等应用场景展现出重要价值。其创新性体现在通过多层次空间关系建模，突破了传统视觉定位在广域视角下对相似目标区分不足的局限。

当前挑战

AerialVG面临的核心挑战体现在两个维度：在领域问题层面，航拍图像中目标尺寸微小且分布密集，仅依赖外观特征难以区分同类目标，需建立复杂空间关系推理能力；在构建过程层面，高分辨率图像导致计算复杂度激增，且人工标注需精确捕捉目标间的八种方位关系（如上、下、左、右等）。数据来源VisDrone2019的原始标注粒度不足，需额外标注颜色、车型等细粒度特征，这对标注一致性与空间关系描述的准确性提出了极高要求。

常用场景

经典使用场景

AerialVG数据集在无人机智能感知与自主导航领域具有重要应用价值，其经典使用场景包括高分辨率航拍图像中的多目标定位与空间关系推理。该数据集通过提供5,000张高分辨率航拍图像和50,000条人工标注，支持模型在复杂城市环境中对行人、车辆等目标进行细粒度定位，尤其强调目标间的相对空间关系（如方位、距离等），为无人机在物流配送、应急救援等任务中提供精准的环境感知能力。

解决学术问题

AerialVG有效解决了传统视觉定位（VG）在航拍视角下面临的两大学术难题：一是广域视野与小目标检测的矛盾，通过分层交叉注意力机制（Hierarchical Cross-Attention）增强模型对微小目标的聚焦能力；二是同质化目标的区分困境，其关系感知 grounding 模块（Relation-Aware Grounding）通过建模目标间的空间拓扑关系，显著提升了多相似目标场景下的定位准确率（Top-1准确率提升至50.01%），推动了空间推理在跨模态任务中的理论研究。

衍生相关工作

AerialVG催生了一系列基于空间推理的衍生研究，包括OpenFly航拍视觉语言导航基准、SpatialVLM空间关系建模框架等。其分层注意力机制被改进应用于3D场景理解（如FreeGaussian），而关系感知模块启发了TraceVLA等机器人策略模型的开发。该数据集还促进了视觉-语言大模型（如LLaVA）在航拍领域的迁移学习研究，形成‘视觉定位-空间推理-自主决策’的技术链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集