Multi-instance Open-set Aerial Dataset (MI-OAD)

Name: Multi-instance Open-set Aerial Dataset (MI-OAD)
Creator: 南京理工大学, 智慧融合有限公司, 西北工业大学, 延安大学, 浙江实验室, 北京邮电大学
Published: 2025-05-06 17:07:52
License: 暂无描述

arXiv2025-05-06 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.03334v1

下载链接

链接失效反馈

官方服务：

资源简介：

MI-OAD是一个大规模的开放集空中目标检测数据集，包含163,023张图像和2百万个图像-字幕对，比现有RS接地数据集大40倍。数据集包含三个级别的语言指导：从单词到短语，最终到句子。MI-OAD旨在解决现有遥感接地数据的局限性，并通过开放集空中目标检测来促进相关研究。

MI-OAD is a large-scale open-set aerial object detection dataset. It contains 163,023 images and 2 million image-caption pairs, which is 40 times larger than existing remote sensing (RS) grounded datasets. The dataset includes three levels of linguistic guidance: ranging from individual words to phrases, and ultimately to complete sentences. MI-OAD aims to address the limitations of current remote sensing grounded datasets and promote relevant research via open-set aerial object detection.

提供机构：

南京理工大学, 智慧融合有限公司, 西北工业大学, 延安大学, 浙江实验室, 北京邮电大学

创建时间：

2025-05-06

搜集汇总

数据集介绍

构建方式

MI-OAD数据集的构建依托于创新的OS-W2S标注引擎，该引擎整合了开源视觉语言模型与多阶段处理流程。通过系统化的数据预处理步骤（包括前景区域提取和实例属性标注），结合基于BERT的后处理技术，实现了对航拍图像中复杂场景的自动化标注。标注过程采用四轮交互机制，逐步生成词汇级、短语级和句子级的多层次文本描述，最终通过属性相似度匹配构建了200万高质量的图像-文本对。

特点

作为首个面向开放集航拍检测的基准数据集，MI-OAD具有三大核心特征：场景多样性方面，整合8个主流航拍数据集，涵盖不同高度和设备的拍摄视角；标注丰富性方面，提供从单词到句子的三级语言引导，平均描述长度达11.04个单词；规模优势方面，包含163,023张图像和200万标注对，规模达现有数据集的40倍。特别值得注意的是，69.4%的标注对应精确单实例定位，30.6%支持多实例近似定位，完美契合实际应用需求。

使用方法

该数据集支持三种典型应用范式：在词汇级检测任务中，可直接将类别组合作为提示输入；短语级定位任务需采样图像-短语对进行评估；句子级定位则需构建包含绝对/相对位置信息的复杂查询。实验表明，基于该数据集进行领域自适应训练后，Grounding DINO模型在零样本迁移条件下AP50指标提升29.5%。使用时建议按照7:3比例划分基础类与新类，并通过聚类语义嵌入确保类别划分的合理性。

背景与挑战

背景概述

Multi-instance Open-set Aerial Dataset (MI-OAD) 是由南京理工大学、西北工业大学等机构的研究团队于2025年提出的面向开放世界航空检测的大规模多实例数据集。该数据集旨在解决传统航空检测方法在固定类别和场景下的局限性，通过整合语言引导的多层次描述（从词汇到句子），推动细粒度开放世界检测的发展。MI-OAD包含163,023张图像和200万图像-文本对，规模是现有遥感数据集的40倍，为开放集航空目标检测奠定了数据基础。其核心创新在于OS-W2S标注引擎，通过视觉语言模型实现自动化标注，显著提升了场景多样性和语义丰富性。

当前挑战

MI-OAD面临的挑战主要体现在两个方面：领域问题层面，传统航空检测受限于封闭集类别和弱语义表示，难以应对现实场景中多变的物体描述需求；构建过程层面，航空图像存在小目标密集、背景干扰大等特性，导致标注复杂度高。具体包括：1) 多实例匹配难题（需处理单文本对应多目标的模糊描述场景）；2) 语义鸿沟问题（词汇级标注难以支撑细粒度语义理解）；3) 数据规模瓶颈（现有遥感视觉定位数据集平均仅5万样本）；4) 位置标注挑战（航空图像绝对位置判定受小目标占比影响显著）。这些挑战通过OS-W2S引擎的预处理规则和BERT后处理得到系统性解决。

常用场景

经典使用场景

MI-OAD数据集在遥感图像开放词汇检测领域展现出卓越的应用价值。该数据集通过整合163,023张航拍图像和200万图像-文本对，为语言引导的开放世界目标检测提供了丰富的研究素材。其独特的三级语言标注体系（词汇、短语、句子）支持从粗粒度到细粒度的多层级检测任务，特别适用于需要处理复杂自然语言输入的航空影像分析场景。

解决学术问题

该数据集有效解决了航拍图像开放集检测中的关键学术难题。首先突破了传统遥感视觉定位数据集的单实例标注限制，支持多实例与模糊描述的匹配；其次通过OS-W2S标注引擎生成的多样化文本描述，克服了模板化标注导致的语义贫乏问题；最重要的是以40倍于现有数据集的规模，填补了航拍领域缺乏大规模语义丰富标注数据的空白，为开放集检测算法的训练与验证奠定了数据基础。

衍生相关工作

该数据集的发布催生了一系列创新性研究。基于MI-OAD训练的Grounding DINO模型在零样本迁移任务中AP50指标提升29.5%，验证了数据有效性；后续研究如OVA-DETR通过融合视觉语言模型，进一步提升了图像-文本对齐能力；LAE-DINO则利用数据集扩展检测类别，推动了开放词汇检测的发展。这些工作共同构成了航拍开放集检测的技术体系，相关成果已应用于智能巡检、动态监测等实际业务系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集