ATR-UMMIR
收藏arXiv2025-07-28 更新2025-07-30 收录
下载链接:
https://github.com/supercpy/ATR-UMMIR
下载链接
链接失效反馈资源简介:
ATR-UMMIR是一个专为无人机多模态图像配准设计的基准数据集,包含7,969个图像三元组,包括高分辨率原始可见光图像、原始红外图像和精确配准的可见光图像。数据集涵盖了从80米到300米的飞行高度、0°到75°的相机角度,以及全年全天候的天气和光照条件。ATR-UMMIR为每个三元组引入了可靠的像素级真实值,并标注了六个成像条件属性,以评估配准的鲁棒性。此外,数据集还提供了对象级注释,涵盖了11个对象类别,总计有77,753个可见光和78,409个红外边框。ATR-UMMIR旨在推进无人机场景下的多模态配准、融合和感知研究。
ATR-UMMIR is a benchmark dataset specifically designed for multimodal image registration in unmanned aerial vehicle (UAV) scenarios. It contains 7,969 image triplets, including high-resolution raw visible light images, raw infrared images and precisely registered visible light images. The dataset covers flight altitudes ranging from 80 meters to 300 meters, camera angles from 0° to 75°, as well as year-round all-weather conditions and varying illumination levels. ATR-UMMIR provides reliable pixel-level ground truth for each triplet, and annotates six imaging condition attributes to evaluate the robustness of registration. Additionally, the dataset provides object-level annotations covering 11 object categories, with a total of 77,753 visible light bounding boxes and 78,409 infrared bounding boxes. ATR-UMMIR aims to advance research on multimodal registration, fusion and perception in UAV scenarios.
提供机构:
国防科技大学电子科学学院
创建时间:
2025-07-28
原始信息汇总
ATR-UMMIR 数据集概述
数据集简介
ATR-UMMIR(无人多模态图像配准)是一个用于航空场景下多模态图像配准和匹配的大规模数据集,专注于对齐无人机在不同真实世界条件下捕获的可见光和红外图像对。
数据集详情
- 模态:对齐的可见光-红外图像对
- 场景数量:15,000+ 个独特位置
- 总图像数量:60,000+(30k 可见光,30k 红外)
- 分辨率:640×512 像素
标注信息
- 粗粒度手动对齐
- 细粒度关键点(针对子集)
- 详细条件标签:
- 高度:80m–300m(主要在 100–120m)
- 相机角度:0°(天底)到 75°(倾斜),主要在 30°–45°
- 拍摄时间:白天、夜晚、黎明、早晨、下午
- 天气:晴天、多云、雨天、雨后、雾天
- 光照:夜晚、黄昏、昏暗、正常、过曝
- 场景:11 种类型,包括城市、郊区、村庄、工厂、道路、学校等
应用领域
- 多模态图像配准和对齐
- 条件感知图像匹配
- 跨模态融合和检测
- 基于无人机的遥感任务
下载信息
引用
bibtex @misc{ATRUMMIR2025, title={ATR-UMMIR: A Multimodal UAV Image Matching Dataset under Diverse Conditions}, author={Your Name and Others}, year={2025}, howpublished={url{https://github.com/yourname/ATR-UMMIR}}, }
搜集汇总
数据集介绍

构建方式
ATR-UMMIR数据集的构建采用了半自动化的标注流程,以确保高质量的像素级地面真实数据。数据采集通过搭载在DJI H20T和H20N无人机平台上的同步可见光和红外相机完成,覆盖了飞行高度80米至300米、相机角度0°至75°等多种复杂成像条件。构建过程中,通过关键帧选择、手动时间同步、专家指导的粗空间对齐以及细粒度自动优化,实现了高精度的图像配准。此外,每个图像三元组均包含高分辨率原始可见光图像(1920×1080)、原始红外图像(640×512)以及配准后的可见光图像(640×512),为多模态研究提供了丰富的数据支持。
特点
ATR-UMMIR数据集以其多样化的成像条件和丰富的标注信息脱颖而出。数据集包含7,969组图像三元组,涵盖了全天候、全季节的时间变化以及多种天气和光照条件。每对图像均标注了六个关键成像属性(高度、角度、时间、天气、光照和场景),为条件感知的配准研究提供了重要上下文。此外,数据集还提供了11类物体的精细标注,包括77,753个可见光图像和78,409个红外图像的边界框,支持像素级配准和物体级检测的双重评估,为多模态感知任务奠定了坚实基础。
使用方法
ATR-UMMIR数据集的使用方法灵活多样,适用于多模态图像配准、跨模态匹配以及融合识别任务的研究。研究人员可通过下载数据集中的图像三元组,分别进行单模态或多模态任务的分析。配准后的可见光图像可直接用于评估配准算法的精度,而原始图像则可用于开发新的配准方法。此外,丰富的物体标注和成像属性信息支持条件感知的配准和检测算法开发,帮助研究人员深入理解环境因素对多模态图像匹配的影响。数据集还可用于验证配准质量对下游任务(如目标检测和语义分割)的影响,推动多模态感知技术的进步。
背景与挑战
背景概述
ATR-UMMIR数据集由国防科技大学团队于2021年推出,是首个专注于无人机多模态图像配准的基准数据集。该数据集针对复杂成像条件下可见光与红外图像的跨模态配准问题,包含7,969组三通道图像样本,覆盖80-300米飞行高度、0°-75°相机角度以及全天候、全季节的多样化场景。通过半自动化标注流程生成像素级真值,并附加6类成像条件属性标注,为无人机多模态感知研究提供了关键基础设施。其创新性体现在首次解决了跨分辨率、跨视场的配准评估难题,同时支持配准质量对下游检测任务影响的量化分析,填补了该领域长期缺乏系统性评价基准的空白。
当前挑战
该数据集致力于解决无人机多模态感知中的核心挑战:跨模态图像在分辨率(可见光1920×1080与红外640×512)、视场角及光谱特性差异导致的配准困难。构建过程中面临三重技术壁垒:复杂空域条件下多源传感器数据的时空同步难题,需开发包含关键帧选择与精细自动配准的半自动化流程;像素级真值标注需克服模态间特征表征差异,通过专家指导的粗对齐与自动优化相结合实现;为反映真实部署环境,需系统性采集涵盖海拔、角度、光照等六维条件属性的数据,这对传感器同步与标注质量控制提出极高要求。这些挑战使得该数据集成为评估配准算法鲁棒性的严格基准。
常用场景
经典使用场景
在无人机遥感领域,多模态图像配准是实现可见光与红外图像融合的关键前提。ATR-UMMIR数据集通过提供7969组包含原始可见光、红外及精确配准可见光图像的三元组,为跨分辨率、跨视场的多模态配准算法研究提供了标准测试平台。该数据集特别设计了从80米至300米的飞行高度、0°至75°的相机倾角以及全天候、全季节的复杂成像条件,有效支持了刚性与非刚性配准方法的性能评估。
解决学术问题
该数据集解决了无人机多模态感知中的三个核心学术难题:首先突破了跨分辨率配准的技术瓶颈,通过半自动标注流程提供像素级真值,为异源传感器配准算法验证奠定基础;其次系统性地建模了飞行高度、相机角度等六类成像属性,首次实现条件感知的配准鲁棒性量化分析;最后通过同步提供的11类物体标注框,建立了配准质量与下游检测任务的关联评估框架,填补了该领域基准数据集的空白。
衍生相关工作
基于该数据集已催生多项创新研究,包括CVPR 2024提出的弱对齐自适应特征融合方法,通过解耦模态特征提升跨分辨率检测性能。IEEE TIV期刊构建的错位目标检测基准,利用数据集的条件标注系统分析了不同飞行高度对配准误差的影响。另有研究团队结合该数据集开发了不确定性感知的多模态表示学习框架,其成果发表于Information Fusion期刊,推动了配准与高层视觉任务的协同优化。
以上内容由遇见数据集搜集并总结生成



