Capella Space Synthetic Aperture Radar (SAR) Open Dataset

Name: Capella Space Synthetic Aperture Radar (SAR) Open Dataset
Creator: Helsing
Published: 2025-04-18T03:44:05+08:00

arXiv2025-04-18 更新2025-04-22 收录

卫星遥感

机器学习

数据链接：

https://registry.opendata.aws/capella_opendata/数据链接链接失效反馈

官方服务：

资源简介：

Capella Space SAR开放数据集是一个包含大约25700平方公里地表区域的未标注、地理编码和地形校正的卫星图像集，用于自监督学习的预训练。数据集涵盖了X波段、单极化（HH）聚束SAR图像，分辨率为约0.3米。这些图像用于预训练，以学习SAR强度模式，进而用于目标检测等任务。

Capella Space SAR Open Dataset is an unlabeled, georeferenced and terrain-corrected satellite image dataset covering approximately 25,700 square kilometers of land surface area, designed for pre-training in self-supervised learning. The dataset encompasses X-band, single-polarization (HH) spotlight SAR images with a resolution of around 0.3 meters. These images are utilized for pre-training to learn SAR intensity patterns, which can subsequently be employed for tasks such as object detection.

提供机构：

Helsing

创建时间：

2025-04-18

搜集汇总

数据集介绍

Capella Space Synthetic Aperture Radar (SAR) Open Dataset 数据集图片

构建方式

Capella Space Synthetic Aperture Radar (SAR) Open Dataset的构建基于高分辨率X波段聚束式SAR图像，覆盖地面面积超过25,700平方公里。数据采集采用0.35米空间分辨率的单极化(HH)模式，通过9个视数获取场景信息，方位向分辨率达0.5米。数据集包含1,028幅未标注的经过地理编码和地形校正的卫星图像，每幅覆盖5×5公里区域，入射角范围25°-50°。标注数据采用WGS84坐标系点标注形式，通过SAR分析专家对134幅图像进行精细标注，构建过程注重保持SAR特有的辐射度特征和几何保真度。

特点

该数据集最显著的特点是包含高分辨率聚束式SAR图像，能清晰呈现小至车辆尺寸的目标特征。数据具有全天候成像能力，克服了光学影像受天气影响的局限性。独特的雷达反射特性为城市监测和灾害响应提供了丰富信息，但同时也带来斑点噪声和几何畸变等挑战。数据集特别关注小目标检测难题，目标在图像中往往仅占少量像素，且存在严重的类别不平衡问题。未标注数据的大体量为自监督学习提供了充足素材，而专业标注的稀缺数据则为监督微调奠定了基础。

使用方法

数据集支持端到端的SAR目标检测模型开发，推荐采用TRANSAR提出的自监督学习流程。使用时应先进行对数归一化预处理（ˆx = log2(x)/snorm），随后应用几何和辐射度增强。训练时建议采用512×512像素的随机裁剪芯片，结合课程感知的自适应采样策略解决类别不平衡问题。评估阶段需采用重叠网格采样，仅使用中心裁剪区域计算指标以保证上下文完整性。检测结果通过概率热图呈现，采用基于距离的非极大值抑制(dNMS=23)和命中距离准则(dhit=45)进行后处理，这种分割式检测范式相比传统边界框能更好捕捉点状目标特征。

背景与挑战

背景概述

Capella Space Synthetic Aperture Radar (SAR) Open Dataset是由Helsing团队在ICLR 2025 Machine Learning for Remote Sensing (ML4RS) Workshop上提出的，旨在推动卫星SAR图像中的目标检测研究。SAR技术因其全天候、全天时的独特优势，在环境监测、灾害管理和军事监视等领域具有重要应用价值。该数据集覆盖了超过25,700平方公里的地面区域，包含1028张未标注的X波段聚束SAR图像，空间分辨率达到0.35米。数据集的创建解决了SAR领域标注数据稀缺的核心问题，为自监督学习（SSL）在SAR目标检测中的应用提供了重要资源。TRANSAR模型的提出进一步推动了基于视觉Transformer的SAR目标检测研究，通过掩码图像建模（MIM）和自适应采样策略，显著提升了小目标检测的性能。

当前挑战

Capella Space SAR Open Dataset面临的挑战主要包括两方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，SAR图像中的小目标检测尤为复杂，主要由于SAR技术的空间分辨率较低和固有的斑点噪声，使得小目标（如车辆）往往仅由少量像素表示。此外，SAR图像中严重的类别不平衡问题也增加了模型训练的难度。在构建过程中，标注SAR图像需要高昂的成本和专业知识，导致大规模标注数据集的稀缺。同时，SAR图像的几何畸变和辐射校准问题也为数据预处理带来了挑战。TRANSAR模型通过引入自适应采样调度器和辅助语义分割任务，部分缓解了这些挑战，但在城市环境中高反射物体的检测仍存在较大困难。

常用场景

经典使用场景

Capella Space SAR开放数据集在遥感领域被广泛应用于卫星图像中的目标检测任务，特别是在复杂气象条件下的城市监测和灾害响应。该数据集通过其高分辨率的X波段SAR图像，为研究人员提供了丰富的无标签和有标签数据，支持自监督学习和监督学习方法的开发。经典使用场景包括利用TRANSAR模型进行小目标检测，通过掩码图像建模（MIM）预训练和自适应采样策略，显著提升了在低分辨率和噪声环境下的检测性能。

实际应用

Capella Space SAR数据集的实际应用场景涵盖环境监测、灾害管理和军事 surveillance等多个领域。其全天候成像能力和对微小目标的高灵敏度使其在灾害响应（如洪水或地震后的损毁评估）和城市动态监测中表现出色。例如，TRANSAR模型在密集城市区域中能够准确识别车辆和建筑物等反射性目标，同时减少误报，为决策者提供了可靠的遥感数据支持。

衍生相关工作

该数据集衍生了一系列经典研究工作，包括基于视觉Transformer的自监督架构（如ViT-Uper和ViT-MAE）在遥感任务中的适配，以及针对SAR图像特性的改进方法（如对数归一化和高斯核编码）。此外，TRANSAR模型的成功还启发了后续研究，如GeoPixel和GeoChat等地理空间多模态模型的开发，进一步扩展了SAR数据在视觉-语言任务中的应用潜力。这些工作共同推动了SAR图像分析技术的多样化和实用化。

以上内容由遇见数据集搜集并总结生成

Capella Space Synthetic Aperture Radar (SAR) Open Dataset

资源简介：

相关数据集