Multi-instance Open-set Aerial Dataset (MI-OAD)
收藏arXiv2025-05-06 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.03334v1
下载链接
链接失效反馈官方服务:
资源简介:
MI-OAD是一个大规模的开放集空中目标检测数据集,包含163,023张图像和2百万个图像-字幕对,比现有RS接地数据集大40倍。数据集包含三个级别的语言指导:从单词到短语,最终到句子。MI-OAD旨在解决现有遥感接地数据的局限性,并通过开放集空中目标检测来促进相关研究。
MI-OAD is a large-scale open-set aerial object detection dataset. It contains 163,023 images and 2 million image-caption pairs, which is 40 times larger than existing remote sensing (RS) grounded datasets. The dataset includes three levels of linguistic guidance: ranging from individual words to phrases, and ultimately to complete sentences. MI-OAD aims to address the limitations of current remote sensing grounded datasets and promote relevant research via open-set aerial object detection.
提供机构:
南京理工大学, 智慧融合有限公司, 西北工业大学, 延安大学, 浙江实验室, 北京邮电大学
创建时间:
2025-05-06
搜集汇总
数据集介绍

构建方式
MI-OAD数据集的构建依托于创新的OS-W2S标注引擎,该引擎整合了开源视觉语言模型与多阶段处理流程。通过系统化的数据预处理步骤(包括前景区域提取和实例属性标注),结合基于BERT的后处理技术,实现了对航拍图像中复杂场景的自动化标注。标注过程采用四轮交互机制,逐步生成词汇级、短语级和句子级的多层次文本描述,最终通过属性相似度匹配构建了200万高质量的图像-文本对。
特点
作为首个面向开放集航拍检测的基准数据集,MI-OAD具有三大核心特征:场景多样性方面,整合8个主流航拍数据集,涵盖不同高度和设备的拍摄视角;标注丰富性方面,提供从单词到句子的三级语言引导,平均描述长度达11.04个单词;规模优势方面,包含163,023张图像和200万标注对,规模达现有数据集的40倍。特别值得注意的是,69.4%的标注对应精确单实例定位,30.6%支持多实例近似定位,完美契合实际应用需求。
使用方法
该数据集支持三种典型应用范式:在词汇级检测任务中,可直接将类别组合作为提示输入;短语级定位任务需采样图像-短语对进行评估;句子级定位则需构建包含绝对/相对位置信息的复杂查询。实验表明,基于该数据集进行领域自适应训练后,Grounding DINO模型在零样本迁移条件下AP50指标提升29.5%。使用时建议按照7:3比例划分基础类与新类,并通过聚类语义嵌入确保类别划分的合理性。
背景与挑战
背景概述
Multi-instance Open-set Aerial Dataset (MI-OAD) 是由南京理工大学、西北工业大学等机构的研究团队于2025年提出的面向开放世界航空检测的大规模多实例数据集。该数据集旨在解决传统航空检测方法在固定类别和场景下的局限性,通过整合语言引导的多层次描述(从词汇到句子),推动细粒度开放世界检测的发展。MI-OAD包含163,023张图像和200万图像-文本对,规模是现有遥感数据集的40倍,为开放集航空目标检测奠定了数据基础。其核心创新在于OS-W2S标注引擎,通过视觉语言模型实现自动化标注,显著提升了场景多样性和语义丰富性。
当前挑战
MI-OAD面临的挑战主要体现在两个方面:领域问题层面,传统航空检测受限于封闭集类别和弱语义表示,难以应对现实场景中多变的物体描述需求;构建过程层面,航空图像存在小目标密集、背景干扰大等特性,导致标注复杂度高。具体包括:1) 多实例匹配难题(需处理单文本对应多目标的模糊描述场景);2) 语义鸿沟问题(词汇级标注难以支撑细粒度语义理解);3) 数据规模瓶颈(现有遥感视觉定位数据集平均仅5万样本);4) 位置标注挑战(航空图像绝对位置判定受小目标占比影响显著)。这些挑战通过OS-W2S引擎的预处理规则和BERT后处理得到系统性解决。
常用场景
经典使用场景
MI-OAD数据集在遥感图像开放词汇检测领域展现出卓越的应用价值。该数据集通过整合163,023张航拍图像和200万图像-文本对,为语言引导的开放世界目标检测提供了丰富的研究素材。其独特的三级语言标注体系(词汇、短语、句子)支持从粗粒度到细粒度的多层级检测任务,特别适用于需要处理复杂自然语言输入的航空影像分析场景。
解决学术问题
该数据集有效解决了航拍图像开放集检测中的关键学术难题。首先突破了传统遥感视觉定位数据集的单实例标注限制,支持多实例与模糊描述的匹配;其次通过OS-W2S标注引擎生成的多样化文本描述,克服了模板化标注导致的语义贫乏问题;最重要的是以40倍于现有数据集的规模,填补了航拍领域缺乏大规模语义丰富标注数据的空白,为开放集检测算法的训练与验证奠定了数据基础。
衍生相关工作
该数据集的发布催生了一系列创新性研究。基于MI-OAD训练的Grounding DINO模型在零样本迁移任务中AP50指标提升29.5%,验证了数据有效性;后续研究如OVA-DETR通过融合视觉语言模型,进一步提升了图像-文本对齐能力;LAE-DINO则利用数据集扩展检测类别,推动了开放词汇检测的发展。这些工作共同构成了航拍开放集检测的技术体系,相关成果已应用于智能巡检、动态监测等实际业务系统。
以上内容由遇见数据集搜集并总结生成



