AerialMind

github2025-11-27 更新2025-11-28 收录

下载链接：

https://github.com/shawnliang420/AerialMind

下载链接

链接失效反馈

官方服务：

资源简介：

AerialMind是一个面向无人机场景的参考多目标跟踪数据集，包含93个视频，涵盖多个领域，支持推理和属性分析。该数据集包含24.6K个表达式，1.2K个词汇，每个表达式平均对应11.9个实例，总共有293.1K个实例和46.14M个标注边界框。

AerialMind is a reference multi-object tracking dataset tailored for drone scenarios. It comprises 93 videos spanning multiple domains, and supports reasoning and attribute analysis. This dataset contains 24.6K expressions and 1.2K vocabulary terms. On average, each expression corresponds to 11.9 instances, with a total of 293.1K instances and 46.14M annotated bounding boxes.

创建时间：

2025-11-12

原始信息汇总

AerialMind 数据集概述

数据集基本信息

数据集名称：AerialMind
研究领域：无人机场景下的Referring Multi-Object Tracking
论文链接：https://arxiv.org/abs/2511.21053

数据集状态

当前状态：正在整理中，尚未发布
发布计划：完成最终检查后将发布下载链接

数据集规模统计

统计指标	数值
视频数量	93
表达式数量	24.6K
词汇量	1.2K
实例数量	293.1K
标注边界框数量	46.14M
实例/表达式比例	11.9

数据集特性

领域信息：✓ 支持
推理信息：✓ 支持
属性信息：✓ 支持

数据组成

数据来源：Visdrone、UAVDT
目录结构：
- Attribute
- image_02
- labels_with_ids

对比优势

与Refer-KITTI、Refer-Dance、Refer-KITTI-V2、Refer-UE-City、Refer-BDD、CRTrack、LaMOT等数据集相比，AerialMind在以下方面具有优势：

视频数量最多（93个）
表达式数量最多（24.6K）
词汇量最大（1.2K）
实例数量最多（293.1K）
标注边界框数量最多（46.14M）

致谢

本数据集构建受到以下项目的启发：

RMOT
TempRMOT
CRMOT
RefDrone

搜集汇总

数据集介绍

构建方式

在无人机视觉研究领域，AerialMind数据集的构建融合了多源无人机视频数据，通过整合Visdrone与UAVDT等公开数据集，结合人工标注与自动化处理技术，形成了覆盖93个视频序列的大规模样本库。其标注过程采用多阶段验证机制，确保边界框与语言描述的高度一致性，同时引入领域适应、推理属性及视觉特征标注维度，为复杂场景下的多目标跟踪任务提供了结构化数据支撑。

特点

该数据集在规模与多样性方面表现突出，囊括24.6K条自然语言描述与46.14M个标注边界框，覆盖293.1K个目标实例，语言词汇量达1.2K，显著超越同类基准。其独特之处在于同时支持领域适应、逻辑推理与属性分析三重能力评估，通过无人机俯拍视角捕捉动态目标交互，为跨模态理解任务提供了兼具时空复杂性与语义丰富性的实验平台。

使用方法

使用者需通过GitHub仓库获取数据存储规范，将解压后的AerialMind文件夹置于项目根目录的data路径下，并严格遵循目录结构要求。环境配置需依赖Python 3.7及以上版本与PyTorch深度学习框架，通过安装指定依赖库并编译多尺度可变形注意力模块即可完成环境部署。该数据集适用于端到端的指代多目标跟踪模型训练与验证，其标准化接口支持直接嵌入主流跟踪算法 pipeline。

背景与挑战

背景概述

AerialMind数据集由研究团队于2025年提出，聚焦于无人机场景下的指代多目标跟踪技术。该数据集整合了Visdrone和UAVDT等公开资源，包含93段视频、24.6K条语言描述及46.14M标注框，首次在航拍领域同时涵盖领域适应、关系推理与属性分析三重维度。其规模与复杂性为动态环境中的语义化目标追踪建立了新基准，推动了智能感知系统在复杂空域中的应用发展。

当前挑战

指代多目标跟踪需解决自然语言描述与动态视觉实体的精准关联问题，尤其在无人机视角下存在目标尺度突变、遮挡频繁及背景干扰等固有难点。数据集构建过程中面临多源数据对齐、时空一致性标注、以及跨模态语义融合等挑战，需通过混合标注策略与质量验证机制保障数据可靠性。

常用场景

经典使用场景

在无人机视觉感知领域，AerialMind数据集为指代多目标跟踪研究提供了重要支撑。该数据集通过整合Visdrone和UAVDT等权威无人机视觉数据源，构建了包含93个视频序列、24.6K条语言表达的大规模基准，其46.14M标注框的庞大体量使得研究者能够开展复杂的跨模态关联分析。数据集特别设计了包含领域知识、推理逻辑和属性描述的多维度标注体系，为探索自然语言指引下的无人机多目标持续跟踪任务奠定了坚实基础。

衍生相关工作

该数据集的发布催生了一系列重要的衍生研究工作。在指代多目标跟踪领域，RMOT、TempRMOT和CRMOT等代表性方法均借鉴了AerialMind的数据构建理念和评估标准。RefDrone等专门针对无人机场景的跟踪系统也在数据集标注规范的启发下不断完善。这些工作共同推动了跨模态跟踪技术的发展和标准化，形成了以语言引导为核心的新型跟踪研究范式，为后续学术探索提供了丰富的技术积累和方法论参考。

数据集最近研究