SSL4EO-S12

Name: SSL4EO-S12
Creator: IBM Research Europe
Published: 2025-03-20 17:13:31
License: 暂无描述

arXiv2025-03-20 更新2025-03-25 收录

下载链接：

http://arxiv.org/abs/2503.15969v1

下载链接

链接失效反馈

官方服务：

资源简介：

SSL4EO-S12是一个大规模的多光谱图像-文本数据集，由IBM Research Europe创建，旨在支持地球观测领域的研究。该数据集包含了一百万个来自Sentinel-2卫星的图像样本，涵盖了多个季节的光学数据以及合成孔径雷达数据。图像样本经过了详细的自然语言描述，为多光谱视觉语言模型的对比学习提供了语义接地。数据集的构建目的是为了推进多光谱视觉语言学习在地球观测领域的应用，特别是在植被和灾害监测、城市规划等领域。

SSL4EO-S12 is a large-scale multispectral image-text dataset developed by IBM Research Europe to support research in the Earth Observation domain. This dataset contains one million image samples from the Sentinel-2 satellite, covering optical data across multiple seasons and synthetic aperture radar (SAR) data. Each image sample is paired with detailed natural language descriptions, providing semantic grounding for contrastive learning of multispectral vision-language models. The dataset is constructed to advance the application of multispectral vision-language learning in Earth Observation scenarios, particularly in vegetation and disaster monitoring, urban planning, and other related fields.

提供机构：

IBM Research Europe

创建时间：

2025-03-20

搜集汇总

数据集介绍

构建方式

SSL4EO-S12数据集的构建采用了多模态大规模语言模型Llama3-LLaVA-Next-8B，结合Overture Maps的地理标签信息，为Sentinel-2卫星图像生成文本描述。具体流程包括从Sentinel-2 L2A数据中提取RGB通道，调整图像尺寸至224×224像素，并利用地理标签增强上下文信息。通过链式思维方法，模型首先生成三个问题-答案对，随后生成最终描述，确保语义丰富性和多样性。

特点

SSL4EO-S12数据集是目前最大的多光谱图像-文本对数据集，包含100万Sentinel-2样本及其生成的文本描述。其特点包括多季节覆盖、全球分布以及高分辨率（10米）。数据集通过自动化流程生成多样化的描述，相较于人工标注数据集，展现出更高的n-gram多样性（0.75）和更低的描述间相似性。专家评估显示，85%的描述覆盖了图像主要特征，且三分之二无幻觉现象。

使用方法

该数据集主要用于训练和评估多光谱视觉-语言模型，如Llama3-MS-CLIP。使用方法包括零样本分类和文本-图像检索任务。在零样本分类中，通过计算图像与类别文本嵌入的相似度进行预测；检索任务则通过排序相似度得分并计算平均精度（mAP@100）。数据集支持多光谱波段输入（如10个精选波段），需将反射率范围归一化至0-255，并应用预训练的均值和标准差进行标准化。

背景与挑战

背景概述

SSL4EO-S12数据集是由IBM欧洲研究院的研究团队于2025年推出的首个大规模多光谱遥感视觉-语言预训练数据集，旨在解决地球观测领域中多光谱数据与自然语言描述的对齐问题。该数据集基于欧空局Sentinel-2卫星的L1C和L2A级数据，覆盖全球24.4万个城市区域，包含97.5万张264×264像素的多光谱图像，并创新性地采用Llama3-LLaVA-Next多模态大模型生成文本描述。作为目前最大的多光谱图像-文本配对数据集，其突破了传统遥感数据集仅依赖RGB通道或人工标注的局限，通过融合13个光谱波段信息与自动化生成的语义描述，为多模态地理空间智能研究提供了重要基础。该数据集的发布显著推动了多光谱视觉-语言模型的发展，在零样本分类和跨模态检索任务中相较RGB基线模型平均提升6.77%的准确率。

当前挑战

构建SSL4EO-S12数据集面临双重挑战：在领域问题层面，传统视觉-语言模型受限于RGB三通道输入，难以捕捉短波红外等关键光谱特征，导致在植被监测、甲烷源识别等专业场景表现欠佳；在技术实现层面，多光谱数据缺乏自然语言标注，需克服卫星图像与文本语义的跨模态对齐难题。研究团队通过开发自动化标注流水线，结合Overture地图地理标签和链式思维提示工程，但仍需处理大模型幻觉（32%样本存在描述误差）以及60米低分辨率波段的信息噪声问题。此外，扩展CLIP模型架构时，多光谱通道的权重初始化策略与波段选择（最终舍弃2个低质量波段）也构成重要技术挑战。

常用场景

经典使用场景

SSL4EO-S12数据集在地球观测领域具有广泛的应用，尤其在多光谱视觉-语言模型（VLM）的预训练中表现突出。该数据集通过结合Sentinel-2卫星的多光谱数据和自动生成的文本描述，为研究人员提供了一个大规模、多季节、多模态的数据资源。经典使用场景包括零样本分类和跨模态检索任务，这些任务在遥感图像分析中尤为重要。

解决学术问题

SSL4EO-S12数据集解决了地球观测领域中的几个关键学术问题。首先，它填补了多光谱数据与自然语言描述之间缺乏大规模对齐数据的空白。其次，通过引入多光谱信息，该数据集显著提升了视觉-语言模型在遥感图像理解上的性能，相比传统RGB模型在分类准确率和检索性能上分别提高了6.77%和4.63%。此外，数据集还支持零样本学习，减少了领域特定数据标注的需求。

衍生相关工作

SSL4EO-S12数据集衍生了一系列经典工作，特别是在多光谱视觉-语言模型的研究中。例如，Llama3-MS-CLIP模型通过在该数据集上的预训练，显著提升了零样本分类和检索任务的性能。其他相关工作还包括SkyCLIP和GeoRSCLIP等模型，这些模型虽然基于RGB数据，但为多光谱模型的开发提供了重要参考。此外，数据集的自动标注方法也为后续研究提供了技术借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集