SSL4EO-S12
收藏arXiv2023-05-29 更新2024-06-21 收录
下载链接:
https://github.com/zhu-xlab/SSL4EO-S12
下载链接
链接失效反馈官方服务:
资源简介:
SSL4EO-S12是一个大规模多模态、多时相的无监督学习地球观测数据集,由慕尼黑工业大学和德国航空航天中心联合创建。该数据集包含全球25万个位置的Sentinel-1和Sentinel-2卫星图像,总计约300万张2640x2640像素的图像,覆盖四季变化。创建过程中,通过Google Earth Engine下载并处理数据,确保了地理覆盖的广泛性和多样性。SSL4EO-S12数据集主要用于自监督预训练,支持场景分类、语义分割和变化检测等多种下游应用,旨在推动地球观测领域的大规模数据挖掘和自监督学习技术的发展。
SSL4EO-S12 is a large-scale multimodal, multi-temporal unsupervised learning Earth Observation (EO) dataset jointly developed by the Technical University of Munich (TUM) and the German Aerospace Center (DLR). This dataset encompasses Sentinel-1 and Sentinel-2 satellite imagery collected from 250,000 global locations, with a total of approximately 3 million 2640×2640 pixel images covering seasonal variations. During the dataset construction process, data was downloaded and processed via Google Earth Engine, ensuring extensive and diverse geographic coverage. The SSL4EO-S12 dataset is primarily designed for self-supervised pre-training, and supports a wide range of downstream tasks including scene classification, semantic segmentation, and change detection, aiming to advance the development of large-scale data mining and self-supervised learning technologies in the Earth Observation field.
提供机构:
慕尼黑工业大学地球观测数据科学主席与德国航空航天中心遥感技术研究所
创建时间:
2022-11-14
搜集汇总
数据集介绍

构建方式
SSL4EO-S12数据集的构建方式是通过从Sentinel-2卫星数据中提取大约一百万张图像,并使用Llama3-LLaVA-Next和Overture Maps数据自动生成相应的文本描述。这些图像涵盖了全球244,000个地点,包括城市地区的光学数据,分辨率为10米。为了使这些图像能够用于多光谱视觉语言模型,研究人员开发了一个可扩展的图像描述流程,该流程利用元数据标签和大型语言模型来生成高质量的文本描述。
特点
SSL4EO-S12数据集的特点在于其大规模、多光谱和图像描述的多样性。数据集包含了从Sentinel-2卫星获取的光学数据,这些数据具有从可见光到近红外和短波红外的13个光谱波段,提供了比传统RGB图像更丰富的信息。此外,数据集中的图像描述是通过一个多模态大型语言模型生成的,这些描述不仅包含了对图像内容的描述,还包含了与图像相关的问题和答案对,这为模型提供了更深入的语义信息。
使用方法
SSL4EO-S12数据集可用于训练和评估多光谱视觉语言模型。数据集的图像和描述可以用于对比学习,使模型能够将多光谱图像表示与自然语言对齐。此外,数据集中的问题-答案对还可以用于进一步训练模型,以提高其在地球观测任务中的性能。为了使用该数据集,研究人员需要将图像和描述加载到模型中,并使用适当的损失函数进行训练。训练完成后,模型可以用于各种地球观测任务,如零样本图像分类和检索。
背景与挑战
背景概述
遥感领域在近年来取得了显著的进展,特别是在利用卫星图像进行地球观测方面。然而,现有的视觉-语言模型(VLM)主要依赖于自然RGB图像,无法充分利用卫星图像中丰富的光谱信息。为了解决这一问题,研究人员开发了SSL4EO-S12数据集,这是一个由Sentinel-2卫星数据组成的大规模多光谱图像数据集,包含了一百万个样本及其对应的文本描述。该数据集的创建填补了地球观测领域大规模多光谱图像-文本数据集的空白,为训练强大的视觉-语言模型提供了宝贵资源。
当前挑战
尽管SSL4EO-S12数据集在地球观测领域具有重要意义,但构建该数据集也面临一些挑战。首先,多光谱图像的自动标注是一个难题,因为卫星图像本身不包含描述性文本。为了解决这个问题,研究人员开发了一种基于多模态大型语言模型(MLLM)和Overture注释的自动化标注方法。其次,多光谱数据的处理和模型训练需要特殊的考虑,例如扩展模型输入层以处理Sentinel-2的光谱波段,并使用对比学习来对齐多光谱图像表示和自然语言。这些挑战需要研究人员不断探索和创新,以推动地球观测领域的发展。
常用场景
经典使用场景
SSL4EO-S12数据集的经典使用场景在于多光谱图像描述与理解。该数据集包含了大量Sentinel-2卫星图像及其对应的文本描述,这些描述是通过Llama3-LLaVA-Next模型和Overture Maps数据自动生成的。这使得SSL4EO-S12成为视觉-语言模型进行多光谱图像理解的基础数据集。通过该数据集,研究者可以训练模型进行多光谱图像的分类、检索和描述生成,从而更好地利用多光谱图像中的丰富信息,提高模型在地球观测领域的表现。
衍生相关工作
SSL4EO-S12数据集的发布为地球观测领域的研究提供了新的可能性。基于SSL4EO-S12数据集,研究者可以开发出更多针对地球观测领域的视觉-语言模型,并应用于更广泛的场景。此外,SSL4EO-S12数据集还可以与其他地球观测数据集进行整合,构建更大规模的多光谱图像-文本对训练数据集,从而推动地球观测领域的研究发展。
数据集最近研究
最新研究方向
SSL4EO-S12数据集的引入,标志着地球观测领域在多光谱视觉语言学习方面的重大突破。该数据集通过利用卫星影像中丰富的光谱信息,扩展了视觉语言模型的输入范围,从而使得模型能够更好地理解和描述地球表面的各种特征。Llama3-MS-CLIP作为首个在多光谱数据集上进行预训练的视觉语言模型,展现了其在零样本图像分类和检索任务上的卓越性能。该模型不仅在分类准确率上平均提高了6.77%,在检索性能上也有所提升。SSL4EO-S12数据集的发布,不仅为地球观测领域的研究提供了新的数据资源,也为多光谱视觉语言学习的研究方向提供了重要的实验基础。
相关研究论文
- 1Beyond the Visible: Multispectral Vision-Language Learning for Earth ObservationIBM Research Europe · 2025年
以上内容由遇见数据集搜集并总结生成



