SARLO-80
收藏Hugging Face2025-11-18 更新2025-11-19 收录
下载链接:
https://huggingface.co/datasets/ONERA/SARLO-80
下载链接
链接失效反馈官方服务:
资源简介:
SARLO-80是一个包含119566对倾斜距离几何下的合成孔径雷达(SAR)光学图像和文本描述的数据集。SAR数据来自Umbra SICD产品,重采样为固定的80厘米×80厘米分辨率(方位和距离)在倾斜距离几何中。光学图像是高分辨率的光学数据,重投影到相应的SAR采集的倾斜距离几何中。每一对图像还包括使用CogVLM2自动生成的三个光学图像标题,然后使用Qwen LLM进行清洗和后处理。
创建时间:
2025-11-08
原始信息汇总
SARLO-80: Worldwide Slant SAR Language Optic Dataset - 80cm 数据集概述
数据集描述
- 该数据集提供119566对配对的Umbra SAR图像、斜距几何光学图像和文本描述
- SAR数据来自Umbra SICD产品,在斜距几何中重采样至固定80厘米×80厘米分辨率
- 光学图像是重投影到相应SAR采集斜距几何中的高分辨率光学数据
- 每对图像包含三个自动生成的描述,使用CogVLM2从光学图像生成,并通过Qwen LLM清理和后处理
数据格式
- 分辨率: 80厘米(方位×距离),斜距几何
- 模态配对: Umbra SAR × 光学(斜距重投影)
- 文本: 每对图像3个描述(SHORT、MID、LONG)
样本内容
每个样本包含:
| 文件 | 描述 | 备注 |
|---|---|---|
<id>.optic.png |
斜距几何中的光学图像 | 80厘米,(1024, 1024) |
<id>.sar.png |
斜距中的SAR幅度图像 | 80厘米,(1024, 1024) |
<id>.sar.npy |
斜距中的复数SAR数组 | complex64 (1024, 1024) |
<id>.meta.json |
元数据 | UTF-8 JSON |
<id>.__key__ |
唯一WebDataset键 | 字符串 |
元数据内容
meta.json文件包含光学图像信息、城市、城市ID卫星通道、SAR几何信息(方位像素数、距离像素数、有效方位间距、有效距离间距、操作采样、ECF边界框、LLH边界框)以及三种描述(SHORT - 简短、MID - 中等长度、LONG - 描述性说明)
使用方式
支持通过WebDataset/Python流式读取数据集,示例代码展示了如何使用webdataset库加载和处理数据分片
搜集汇总
数据集介绍

构建方式
在遥感数据融合领域,SARLO-80数据集通过系统化流程构建了全球范围的合成孔径雷达与光学图像配对资源。其SAR数据源自Umbra SICD产品,经重采样处理形成固定的80厘米方位向与距离向分辨率,并保持斜距几何构型;光学数据则通过重投影技术匹配对应SAR采集的斜距几何空间。每对图像还融合了由CogVLM2模型自动生成、经Qwen大语言模型清洗后处理的三段式文本描述,形成多模态数据三元组。
特点
该数据集的核心特征体现在多模态数据的精密对齐与丰富标注维度。所有图像均统一为1024×1024像素的斜距几何表达,既包含SAR振幅图像与复数数据阵列,又涵盖重投影后的光学影像。文本描述采用分层结构,提供简洁、中等与详细三种粒度的标注内容。元数据文件进一步补充了地理坐标、城市标识与传感器参数等关键信息,为跨模态学习提供了完整的语义支撑框架。
使用方法
研究人员可通过WebDataset标准流程高效调用该数据集,利用HuggingFace平台提供的分片存储结构实现流式加载。示例代码展示了如何解析包含光学图像、SAR振幅图、复数数据矩阵及元数据的样本单元,其中复数阵列以NumPy格式保留原始相位信息。这种设计既支持端到端的多模态模型训练,又满足遥感领域对复数信号处理的专业需求,为斜距几何下的跨模态研究建立了标准化实验基准。
背景与挑战
背景概述
合成孔径雷达(SAR)与光学遥感数据的跨模态融合是地球观测领域的前沿课题,SARLO-80数据集由法国航空航天实验室(ONERA)的Solène Debuysère博士团队于2023年构建,旨在解决异源遥感数据在斜距几何空间中的对齐与语义理解问题。该数据集通过集成Umbra SAR复数数据、重投影光学影像及多尺度文本描述,为多模态遥感智能解译提供了大规模基准数据,显著推动了军事侦察、环境监测等领域的模型泛化能力研究。
当前挑战
斜距几何下SAR与光学影像的像素级配准面临传感器物理机制差异的固有难题,包括侧视成像与中心投影的几何畸变校正、电磁波散射特性与光学反射的语义鸿沟。数据集构建过程中需攻克Umbra SICD数据到固定80厘米分辨率的重采样精度控制、光学影像向斜距坐标系的高保真反投影,以及通过CogVLM2与Qwen大模型生成描述文本时的噪声过滤与语义一致性维护等关键技术瓶颈。
常用场景
经典使用场景
在遥感图像跨模态分析领域,SARLO-80数据集通过提供11.9万组斜距几何配对的合成孔径雷达与光学图像,成为多模态特征对齐研究的基准工具。其经典应用体现在利用统一几何坐标系下的SAR振幅图像、光学影像及三重文本描述,支撑从像素级到语义级的跨模态表征学习,尤其在斜距空间中的电磁散射特性与光学纹理关联建模方面展现出独特价值。
实际应用
在国防安全与灾害监测等实际场景中,SARLO-80支撑着全天候地表观测系统的开发。其斜距几何数据可直接应用于军事侦察中的伪装目标识别、洪涝灾害应急评估中的淹没区提取,以及极区冰盖动态监测等任务。通过融合光学视觉特征与SAR穿透特性,该数据集为构建适应复杂气象条件的智能遥感解译系统提供了关键数据支撑。
衍生相关工作
基于该数据集已衍生出多个标志性研究成果,包括跨模态注意力网络在斜距空间的适配改进、多尺度特征金字塔在SAR-光学匹配中的创新应用。这些工作显著提升了跨模态检索的精度,推动了如SAR2Optics翻译模型、多模态预训练框架M3L-SAR等先进算法的诞生,为后续构建大规模遥感基础模型奠定了数据基石。
以上内容由遇见数据集搜集并总结生成



