AirSpatial

github2025-05-17 更新2025-05-19 收录

下载链接：

https://github.com/VisionXLab/AirSpatialBot

下载链接

链接失效反馈

官方服务：

资源简介：

AirSpatial是一个空间感知的数据集，包含超过206K的指令，并引入了两个新任务：空间定位和空间问答。这也是第一个提供3DBB的遥感定位数据集。

AirSpatial is a spatially-aware dataset containing over 206K instructions, and it introduces two novel tasks: spatial localization and spatial question answering. It is also the first remote sensing localization dataset that provides 3DBB.

创建时间：

2025-05-17

原始信息汇总

AirSpatialBot数据集概述

数据集基本信息

名称: AirSpatial
类型: 空间感知视觉语言模型(VLM)数据集
数据规模: 包含超过206K条指令
主要应用: 无人机捕获的车辆图像识别与检索

核心特点

空间感知能力: 专注于提升遥感视觉语言模型的空间理解能力
创新性: 首个提供3D边界框(3DBB)的遥感基础数据集
任务类型:
- 空间基础(Spatial Grounding, SG)
- 空间问答(Spatial Question Answering, SQA)

数据集内容

车辆属性:
- 品牌识别(如BYD、Tesla等)
- 车型识别(如Tesla Model 3等)
- 价格信息识别
可视化特征:
- 品牌词云可视化
- 车型词云可视化

技术贡献

两阶段训练策略:
- 图像理解预训练
- 空间理解微调
创新方法:
- ASL(促进2D到3D知识迁移)
- GML(保证3D空间一致性)

应用成果

AirSpatialBot系统:
- 细粒度车辆属性识别
- 目标检索能力
- 动态整合任务规划、图像理解、空间理解和任务执行能力

引用信息

bibtex @ARTICLE{zhou2025airspatialbot, author={Zhou, Yue and Ding, Ran and Yang, Xue and Jiang, Xue and Liu, Xingzhao}, journal={IEEE Transactions on Geoscience and Remote Sensing}, title={AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval}, year={2025}, volume={}, number={}, pages={1-1}, doi={10.1109/TGRS.2025.3570895} }

发布计划

预计2025年5月17日发布:
- AirSpatialBot权重
- 完整数据集
- 相关代码

搜集汇总

数据集介绍

构建方式

在遥感视觉语言模型(VLMs)研究领域，AirSpatial数据集通过创新性的构建方法填补了空间理解能力的空白。该数据集采集无人机拍摄的车辆图像，采用两阶段标注策略：首先进行基础图像理解标注，随后针对空间特性添加3D边界框(3DBB)标注。研究团队精心设计了超过206K条指令数据，涵盖空间定位(Spatial Grounding)和空间问答(Spatial Question Answering)两大新型任务，形成多维度标注体系。

特点

作为首个提供3D边界框标注的遥感基础数据集，AirSpatial展现出显著的技术特色。数据集包含精细的车辆品牌、型号等属性标注，其中比亚迪(BYD)和特斯拉Model3分别占据品牌和型号出现频率首位。通过引入ASL(空间对齐损失)和GML(几何匹配损失)机制，数据集有效实现了2D到3D的空间知识迁移，为模型提供准确的几何空间一致性约束。

使用方法

该数据集支持端到端的空间感知模型训练与应用。研究者可采用两阶段训练策略：先在标准2D遥感视觉定位数据集上进行图像理解预训练，再使用AirSpatial进行空间理解微调。实际部署时，训练完成的AirSpatialBot代理能动态整合任务规划、图像理解和空间理解能力，实现车辆精细属性识别与检索三大核心功能，包括基础属性识别、零样本属性识别和目标检索任务。

背景与挑战

背景概述

AirSpatial数据集由上海交通大学的研究团队于2025年推出，旨在解决遥感视觉语言模型在空间理解方面的局限性。该数据集由Yue Zhou、Ran Ding、Xue Yang等研究人员主导开发，专注于无人机捕获的车辆图像分析，包含超过206K条指令，并首次在遥感领域提供了3D边界框标注。AirSpatial的推出标志着遥感视觉语言模型在空间理解能力上的重要突破，为细粒度车辆属性识别与检索任务提供了全新的研究基准。该数据集不仅填补了遥感领域空间标注数据的空白，还为自动驾驶、智慧城市等应用场景提供了重要的数据支持。

当前挑战

AirSpatial数据集面临的核心挑战主要体现在两个方面：在领域问题层面，现有视觉语言模型难以准确理解三维空间关系，导致在细粒度车辆属性识别任务中出现空间定位偏差；在构建过程层面，数据集需要处理无人机拍摄角度多变、光照条件复杂等实际问题，同时3D边界框标注需要克服标注成本高、精度要求严苛等技术难题。此外，如何实现2D到3D知识的有效迁移，保持空间一致性，也是模型训练过程中的关键挑战。

常用场景

经典使用场景

在遥感视觉语言模型（VLMs）的研究中，AirSpatial数据集通过其独特的空间感知能力，为无人机捕获的车辆图像提供了精细化的属性识别与检索任务。该数据集广泛应用于空间基础任务（Spatial Grounding）和空间问答任务（Spatial Question Answering），为研究者在复杂场景下的空间理解能力提供了重要支持。

衍生相关工作

基于AirSpatial数据集，研究者们开发了一系列创新性工作，如两阶段训练策略（Image Understanding Pre-training和Spatial Understanding Fine-tuning）以及ASL和GML等新型学习方法。这些工作不仅推动了遥感视觉语言模型的发展，也为后续的空间感知研究奠定了重要基础。

数据集最近研究