SegFly

Name: SegFly
Creator: 弗劳恩霍夫协会IVI研究所; 慕尼黑工业大学; MCML; 加州大学洛杉矶分校; 剑桥大学
Published: 2026-03-19 00:57:22
License: 暂无描述

arXiv2026-03-19 更新2026-03-20 收录

下载链接：

https://github.com/markus-42/SegFly

下载链接

链接失效反馈

官方服务：

资源简介：

SegFly是由弗劳恩霍夫协会IVI研究所等机构联合构建的大规模航空语义分割基准数据集，包含20,606张高分辨率RGB图像和15,007对几何对齐的RGB-热成像数据。该数据集通过创新的2D-3D-2D几何驱动范式自动生成97%的RGB标签和100%的热成像标签，覆盖城市、工业区和农村等多种环境场景及不同季节、海拔的飞行数据。其核心价值在于突破传统人工标注限制，为多模态航空场景理解提供标准化评估平台，显著提升RGB和热成像语义分割模型的训练效果。

SegFly is a large-scale aerial semantic segmentation benchmark dataset jointly developed by the Fraunhofer Institute IVI and other institutions. It contains 20,606 high-resolution RGB images and 15,007 pairs of geometrically aligned RGB-thermal imaging data. This dataset automatically generates 97% of RGB labels and 100% of thermal imaging labels through an innovative 2D-3D-2D geometry-driven paradigm, covering flight data across diverse environmental scenarios including urban areas, industrial zones, and rural areas, as well as varying seasons and altitudes. Its core value lies in breaking through the limitations of traditional manual annotation, providing a standardized evaluation platform for multimodal aerial scene understanding, and significantly enhancing the training performance of semantic segmentation models for RGB and thermal imaging modalities.

提供机构：

弗劳恩霍夫协会IVI研究所; 慕尼黑工业大学; MCML; 加州大学洛杉矶分校; 剑桥大学

创建时间：

2026-03-19

原始信息汇总

SegFly数据集概述

数据集基本信息

数据集名称: SegFly
核心内容: 一个用于大规模航空RGB-热成像语义分割的数据集。
技术范式: 采用2D-3D-2D范式。

当前状态

数据与代码状态: 即将发布。
最新动态:
- 2026年03月: 项目页面（https://markus-42.github.io/publications/2026/segfly/）上线。
- 2026年03月: 预印本（https://arxiv.org/abs/2603.17920）已在arXiv发布。

相关链接

项目页面: https://markus-42.github.io/publications/2026/segfly/
论文预印本: https://arxiv.org/abs/2603.17920

搜集汇总

数据集介绍

构建方式

在无人机视觉感知领域，大规模语义分割数据集的构建长期受限于高昂的人工标注成本与跨模态对齐难题。SegFly数据集通过创新的几何驱动2D-3D-2D范式，有效应对了这些挑战。该范式首先利用高重叠航拍图像的多视冗余性，仅对不足3%的RGB图像进行人工语义标注，随后通过运动恢复结构与多视立体技术将其提升至语义三维点云。这一语义点云被重新投影至所有RGB与热红外视图，借助深度引导的语义渲染流程——包括Z缓冲、遮挡过滤、溅射式稠密化与深度导向标签传播——自动生成了覆盖97% RGB图像与100%热红外图像的稠密伪真值标签，实现了标注效率的显著提升。

特点

SegFly数据集以其前所未有的规模与多样性，为航拍多模态语义分割研究设立了新的基准。该数据集包含超过20,000张高分辨率RGB图像与15,000余对几何对齐的RGB-热红外图像对，覆盖了城市、工业与乡村等多种环境，并囊括了不同季节与飞行高度的数据。其核心特点在于通过软件层面的几何对齐实现了RGB与热红外模态间87%的像素级配准精度，无需硬件同步，极大降低了数据采集门槛。此外，数据集提供的伪真值标签在RGB与热红外模态上分别达到了91%与88%的标注准确率，确保了监督信号的高可靠性。

使用方法

SegFly数据集为航拍RGB与RGB-热红外语义分割任务提供了全面的评估平台。研究者可直接使用其提供的伪真值标签训练各类分割模型，如UPerNet、SegFormer或数据集自带的Firefly基线模型。对于RGB-热红外任务，建议采用三阶段训练策略：先在RGB数据上进行预训练，随后利用对齐的图像对进行跨模态域适应以对齐特征空间，最后在热红外数据上进行微调。数据集亦支持对视觉基础模型（如CatSeg、AnyThermal）进行微调，以提升其在航拍场景下的零样本与开放词汇分割性能。数据集的官方划分保留了原始OccuFly基准的训练/验证/测试集结构，确保了评估的一致性与可比性。

背景与挑战

背景概述

无人机视觉感知是计算机视觉领域的关键研究方向，其中语义分割为密集像素级场景理解提供了核心技术支撑。SegFly数据集由慕尼黑工业大学、弗劳恩霍夫研究所等机构的研究团队于2026年提出，旨在解决现有航空RGB与热成像数据集在规模、多样性和标注效率方面的局限。该数据集构建于几何驱动的2D-3D-2D范式之上，通过将不足3%的手动标注RGB图像提升至语义三维点云，并重投影至全部视角，自动生成了超过2万张高分辨率RGB图像和1.5万组几何对齐的RGB-热成像对。SegFly覆盖了城市、工业与乡村等多种环境，跨越不同季节与飞行高度，为多模态航空场景理解建立了大规模基准。

当前挑战

SegFly数据集致力于应对航空多模态语义分割领域的双重挑战。在领域问题层面，航空图像存在强烈的视角变化、尺度差异与复杂场景布局，而RGB-热成像感知还需克服跨模态对齐的难题，传统方法依赖硬件同步或大量人工修正，限制了实际应用的可扩展性。在构建过程层面，密集像素级标注成本高昂，高分辨率航空图像中复杂结构的精细标注需要耗费大量人力；同时，跨模态图像配准面临异步采集、平台运动与传感器特性带来的技术障碍，现有方案难以在缺乏硬件同步的商用无人机平台上实现精准对齐。

常用场景

经典使用场景

在无人机视觉感知领域，SegFly数据集为大规模RGB与热成像语义分割任务提供了关键支撑。其经典应用场景集中于利用几何驱动的2D-3D-2D范式，通过多视角冗余信息自动生成密集伪标签，显著降低了人工标注成本。该数据集特别适用于处理高重叠航拍图像，能够在城市、工业与乡村等多种复杂环境中，实现跨季节、跨海拔的鲁棒场景理解，为无人机在物流配送、基础设施巡检等实际任务中的自主决策奠定基础。

解决学术问题

SegFly数据集有效应对了航拍语义分割研究中长期存在的标注效率低下与跨模态对齐难题。传统方法依赖昂贵的人工逐像素标注，且RGB与热成像数据难以实现精准配准。该数据集通过仅标注不足3%的RGB图像，借助三维点云重建与重投影技术，自动生成了97%的RGB标签与全部热成像标签，同时以87%的配准精度实现了无硬件同步的像素级跨模态对齐。这一突破为大规模多模态航拍数据集的构建提供了可扩展的解决方案，推动了几何引导的自动化标注研究进展。

衍生相关工作

SegFly数据集的推出催生了一系列相关经典工作。其基于的2D-3D-2D范式延续并拓展了OccuFly基准在三维语义重建方面的思路，将标签传播机制延伸至热成像模态。以Firefly基线模型为代表，研究展示了通过RGB预训练与热成像域适配实现知识迁移的有效性。此外，该数据集为CatSeg等开放词汇分割模型与AnyThermal等热成像基础模型提供了丰富的训练资源，显著提升了这些模型在航拍场景下的零样本与微调性能，进一步推动了视觉基础模型在多模态空中感知领域的适配与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集