AirSpatial
收藏github2025-05-17 更新2025-05-19 收录
下载链接:
https://github.com/VisionXLab/AirSpatialBot
下载链接
链接失效反馈官方服务:
资源简介:
AirSpatial是一个空间感知的数据集,包含超过206K的指令,并引入了两个新任务:空间定位和空间问答。这也是第一个提供3DBB的遥感定位数据集。
AirSpatial is a spatially-aware dataset containing over 206K instructions, and it introduces two novel tasks: spatial localization and spatial question answering. It is also the first remote sensing localization dataset that provides 3DBB.
创建时间:
2025-05-17
原始信息汇总
AirSpatialBot数据集概述
数据集基本信息
- 名称: AirSpatial
- 类型: 空间感知视觉语言模型(VLM)数据集
- 数据规模: 包含超过206K条指令
- 主要应用: 无人机捕获的车辆图像识别与检索
核心特点
- 空间感知能力: 专注于提升遥感视觉语言模型的空间理解能力
- 创新性: 首个提供3D边界框(3DBB)的遥感基础数据集
- 任务类型:
- 空间基础(Spatial Grounding, SG)
- 空间问答(Spatial Question Answering, SQA)
数据集内容
- 车辆属性:
- 品牌识别(如BYD、Tesla等)
- 车型识别(如Tesla Model 3等)
- 价格信息识别
- 可视化特征:
- 品牌词云可视化
- 车型词云可视化
技术贡献
- 两阶段训练策略:
- 图像理解预训练
- 空间理解微调
- 创新方法:
- ASL(促进2D到3D知识迁移)
- GML(保证3D空间一致性)
应用成果
- AirSpatialBot系统:
- 细粒度车辆属性识别
- 目标检索能力
- 动态整合任务规划、图像理解、空间理解和任务执行能力
引用信息
bibtex @ARTICLE{zhou2025airspatialbot, author={Zhou, Yue and Ding, Ran and Yang, Xue and Jiang, Xue and Liu, Xingzhao}, journal={IEEE Transactions on Geoscience and Remote Sensing}, title={AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval}, year={2025}, volume={}, number={}, pages={1-1}, doi={10.1109/TGRS.2025.3570895} }
发布计划
- 预计2025年5月17日发布:
- AirSpatialBot权重
- 完整数据集
- 相关代码
搜集汇总
数据集介绍

构建方式
在遥感视觉语言模型(VLMs)研究领域,AirSpatial数据集通过创新性的构建方法填补了空间理解能力的空白。该数据集采集无人机拍摄的车辆图像,采用两阶段标注策略:首先进行基础图像理解标注,随后针对空间特性添加3D边界框(3DBB)标注。研究团队精心设计了超过206K条指令数据,涵盖空间定位(Spatial Grounding)和空间问答(Spatial Question Answering)两大新型任务,形成多维度标注体系。
特点
作为首个提供3D边界框标注的遥感基础数据集,AirSpatial展现出显著的技术特色。数据集包含精细的车辆品牌、型号等属性标注,其中比亚迪(BYD)和特斯拉Model3分别占据品牌和型号出现频率首位。通过引入ASL(空间对齐损失)和GML(几何匹配损失)机制,数据集有效实现了2D到3D的空间知识迁移,为模型提供准确的几何空间一致性约束。
使用方法
该数据集支持端到端的空间感知模型训练与应用。研究者可采用两阶段训练策略:先在标准2D遥感视觉定位数据集上进行图像理解预训练,再使用AirSpatial进行空间理解微调。实际部署时,训练完成的AirSpatialBot代理能动态整合任务规划、图像理解和空间理解能力,实现车辆精细属性识别与检索三大核心功能,包括基础属性识别、零样本属性识别和目标检索任务。
背景与挑战
背景概述
AirSpatial数据集由上海交通大学的研究团队于2025年推出,旨在解决遥感视觉语言模型在空间理解方面的局限性。该数据集由Yue Zhou、Ran Ding、Xue Yang等研究人员主导开发,专注于无人机捕获的车辆图像分析,包含超过206K条指令,并首次在遥感领域提供了3D边界框标注。AirSpatial的推出标志着遥感视觉语言模型在空间理解能力上的重要突破,为细粒度车辆属性识别与检索任务提供了全新的研究基准。该数据集不仅填补了遥感领域空间标注数据的空白,还为自动驾驶、智慧城市等应用场景提供了重要的数据支持。
当前挑战
AirSpatial数据集面临的核心挑战主要体现在两个方面:在领域问题层面,现有视觉语言模型难以准确理解三维空间关系,导致在细粒度车辆属性识别任务中出现空间定位偏差;在构建过程层面,数据集需要处理无人机拍摄角度多变、光照条件复杂等实际问题,同时3D边界框标注需要克服标注成本高、精度要求严苛等技术难题。此外,如何实现2D到3D知识的有效迁移,保持空间一致性,也是模型训练过程中的关键挑战。
常用场景
经典使用场景
在遥感视觉语言模型(VLMs)的研究中,AirSpatial数据集通过其独特的空间感知能力,为无人机捕获的车辆图像提供了精细化的属性识别与检索任务。该数据集广泛应用于空间基础任务(Spatial Grounding)和空间问答任务(Spatial Question Answering),为研究者在复杂场景下的空间理解能力提供了重要支持。
衍生相关工作
基于AirSpatial数据集,研究者们开发了一系列创新性工作,如两阶段训练策略(Image Understanding Pre-training和Spatial Understanding Fine-tuning)以及ASL和GML等新型学习方法。这些工作不仅推动了遥感视觉语言模型的发展,也为后续的空间感知研究奠定了重要基础。
数据集最近研究
最新研究方向
在遥感视觉语言模型(VLMs)领域,AirSpatial数据集的推出标志着空间理解能力研究的重要突破。该数据集通过引入空间定位(Spatial Grounding)和空间问答(Spatial Question Answering)两项创新任务,为无人机捕获的车辆图像提供了精细化的属性识别与检索能力。作为首个提供3DBB标注的遥感数据集,AirSpatial不仅填补了现有VLMs在空间维度上的技术空白,还为自动驾驶、智慧城市等热点应用场景提供了关键数据支持。研究团队提出的两阶段训练策略,结合图像理解预训练和空间理解微调,显著提升了模型在复杂空间场景下的表现。AirSpatialBot作为基于该数据集开发的空中智能体,展现了在车辆品牌、型号及价格信息识别方面的卓越性能,为遥感与人工智能的交叉研究开辟了新的方向。
以上内容由遇见数据集搜集并总结生成



