Capella Space Synthetic Aperture Radar (SAR) Open Dataset
收藏arXiv2025-04-18 更新2025-04-22 收录
下载链接:
https://registry.opendata.aws/capella_opendata/
下载链接
链接失效反馈资源简介:
Capella Space SAR开放数据集是一个包含大约25700平方公里地表区域的未标注、地理编码和地形校正的卫星图像集,用于自监督学习的预训练。数据集涵盖了X波段、单极化(HH)聚束SAR图像,分辨率为约0.3米。这些图像用于预训练,以学习SAR强度模式,进而用于目标检测等任务。
The Capella Space SAR Open Dataset is an unlabeled, georeferenced and terrain-corrected satellite image dataset covering approximately 25,700 square kilometers of surface area, intended for pre-training in self-supervised learning. The dataset includes X-band, single-polarization (HH) spotlight SAR images with a resolution of approximately 0.3 meters. These images are used for pre-training to learn SAR intensity patterns, which can then be applied to tasks such as object detection.
提供机构:
Helsing
创建时间:
2025-04-18
AI搜集汇总
数据集介绍

构建方式
Capella Space Synthetic Aperture Radar (SAR) Open Dataset的构建基于高分辨率X波段聚束式SAR图像,覆盖地面面积超过25,700平方公里。数据采集采用0.35米空间分辨率的单极化(HH)模式,通过9个视数获取场景信息,方位向分辨率达0.5米。数据集包含1,028幅未标注的经过地理编码和地形校正的卫星图像,每幅覆盖5×5公里区域,入射角范围25°-50°。标注数据采用WGS84坐标系点标注形式,通过SAR分析专家对134幅图像进行精细标注,构建过程注重保持SAR特有的辐射度特征和几何保真度。
特点
该数据集最显著的特点是包含高分辨率聚束式SAR图像,能清晰呈现小至车辆尺寸的目标特征。数据具有全天候成像能力,克服了光学影像受天气影响的局限性。独特的雷达反射特性为城市监测和灾害响应提供了丰富信息,但同时也带来斑点噪声和几何畸变等挑战。数据集特别关注小目标检测难题,目标在图像中往往仅占少量像素,且存在严重的类别不平衡问题。未标注数据的大体量为自监督学习提供了充足素材,而专业标注的稀缺数据则为监督微调奠定了基础。
使用方法
数据集支持端到端的SAR目标检测模型开发,推荐采用TRANSAR提出的自监督学习流程。使用时应先进行对数归一化预处理(ˆx = log2(x)/snorm),随后应用几何和辐射度增强。训练时建议采用512×512像素的随机裁剪芯片,结合课程感知的自适应采样策略解决类别不平衡问题。评估阶段需采用重叠网格采样,仅使用中心裁剪区域计算指标以保证上下文完整性。检测结果通过概率热图呈现,采用基于距离的非极大值抑制(dNMS=23)和命中距离准则(dhit=45)进行后处理,这种分割式检测范式相比传统边界框能更好捕捉点状目标特征。
背景与挑战
背景概述
Capella Space Synthetic Aperture Radar (SAR) Open Dataset是由Helsing团队在ICLR 2025 Machine Learning for Remote Sensing (ML4RS) Workshop上提出的,旨在推动卫星SAR图像中的目标检测研究。SAR技术因其全天候、全天时的独特优势,在环境监测、灾害管理和军事监视等领域具有重要应用价值。该数据集覆盖了超过25,700平方公里的地面区域,包含1028张未标注的X波段聚束SAR图像,空间分辨率达到0.35米。数据集的创建解决了SAR领域标注数据稀缺的核心问题,为自监督学习(SSL)在SAR目标检测中的应用提供了重要资源。TRANSAR模型的提出进一步推动了基于视觉Transformer的SAR目标检测研究,通过掩码图像建模(MIM)和自适应采样策略,显著提升了小目标检测的性能。
当前挑战
Capella Space SAR Open Dataset面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,SAR图像中的小目标检测尤为复杂,主要由于SAR技术的空间分辨率较低和固有的斑点噪声,使得小目标(如车辆)往往仅由少量像素表示。此外,SAR图像中严重的类别不平衡问题也增加了模型训练的难度。在构建过程中,标注SAR图像需要高昂的成本和专业知识,导致大规模标注数据集的稀缺。同时,SAR图像的几何畸变和辐射校准问题也为数据预处理带来了挑战。TRANSAR模型通过引入自适应采样调度器和辅助语义分割任务,部分缓解了这些挑战,但在城市环境中高反射物体的检测仍存在较大困难。
常用场景
经典使用场景
Capella Space SAR开放数据集在遥感领域被广泛应用于卫星图像中的目标检测任务,特别是在复杂气象条件下的城市监测和灾害响应。该数据集通过其高分辨率的X波段SAR图像,为研究人员提供了丰富的无标签和有标签数据,支持自监督学习和监督学习方法的开发。经典使用场景包括利用TRANSAR模型进行小目标检测,通过掩码图像建模(MIM)预训练和自适应采样策略,显著提升了在低分辨率和噪声环境下的检测性能。
实际应用
Capella Space SAR数据集的实际应用场景涵盖环境监测、灾害管理和军事 surveillance等多个领域。其全天候成像能力和对微小目标的高灵敏度使其在灾害响应(如洪水或地震后的损毁评估)和城市动态监测中表现出色。例如,TRANSAR模型在密集城市区域中能够准确识别车辆和建筑物等反射性目标,同时减少误报,为决策者提供了可靠的遥感数据支持。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括基于视觉Transformer的自监督架构(如ViT-Uper和ViT-MAE)在遥感任务中的适配,以及针对SAR图像特性的改进方法(如对数归一化和高斯核编码)。此外,TRANSAR模型的成功还启发了后续研究,如GeoPixel和GeoChat等地理空间多模态模型的开发,进一步扩展了SAR数据在视觉-语言任务中的应用潜力。这些工作共同推动了SAR图像分析技术的多样化和实用化。
以上内容由AI搜集并总结生成



