SSL4EO-S12 v1.1
收藏arXiv2025-03-01 更新2025-03-06 收录
下载链接:
https://datapub.fzjuelich.de/ssl4eo-s12
下载链接
链接失效反馈官方服务:
资源简介:
SSL4EO-S12 v1.1是由IBM Research Europe和德国航空航天中心等机构共同创建的多模态、多季节地球观测数据集,包含全球近一万座最大城市及其周边50公里范围内的数据。该数据集覆盖四个季节,包含近一百万个图像块,采用Zarr文件格式存储,方便云加载和元信息表示。数据集在CC-BY-4.0许可证下发布,支持开放研究,并为自监督学习和地理空间分析的未来进展提供坚实基础。
SSL4EO-S12 v1.1 is a multimodal, multi-season Earth observation dataset co-developed by institutions including IBM Research Europe and the German Aerospace Center. It encompasses data within a 50-kilometer radius of nearly 10,000 of the world's largest cities and their surrounding regions. This dataset spans four seasons, contains nearly one million image patches, and is stored in the Zarr file format to facilitate cloud loading and metadata representation. Released under the CC-BY-4.0 license, the dataset supports open research and provides a robust foundation for future advancements in self-supervised learning and geospatial analysis.
提供机构:
IBM Research Europe, 德国航空航天中心, 朱利叶斯·马克斯·普朗克超级计算中心
创建时间:
2025-03-01
搜集汇总
数据集介绍
构建方式
SSL4EO-S12 v1.1是一款面向大规模预训练基础模型的地球观测数据集,构建方式上,该数据集以Sentinel-1和Sentinel-2多模态卫星图像为基础,通过精心挑选的四个季节的时序数据,确保了数据的时空多样性。首先,通过扩大下载数据区域并对Sentinel-1数据进行投影转换,实现了模态间的精确对齐。接着,采用严格的筛选机制,排除云量超过10%的图像,保证数据质量。最后,数据被处理为分析就绪格式(ARD),并以Zarr文件格式存储,以优化云计算环境下的数据加载和元信息表示。
特点
SSL4EO-S12 v1.1数据集的特点在于其多模态、多季节的数据覆盖。它不仅包含了全球十大城市及其周边50公里范围内的近百万个图像块,而且还提供了精确的云掩码和地理位置信息。数据集采用了创新的预处理流程,如反射率值的动态范围调整,以减少极端像素强度,确保了图像质量的视觉平衡和 artifact-free。此外,数据集遵循CC-BY-4.0许可,支持开放研究,并为自监督学习和地理空间分析的未来进展提供了坚实基础。
使用方法
使用SSL4EO-S12 v1.1数据集时,用户可以通过Zarr文件格式高效地加载和处理数据。数据集被分为训练集和验证集,遵循99%-1%的划分比例,避免训练过程中的信息泄露。用户可以利用提供的数据加载策略,如按批次加载64个样本,优化GPU利用率和减少I/O开销。此外,数据集中的元信息存储方便了图像位置和时间的引用,进一步简化了数据管理流程。
背景与挑战
背景概述
SSL4EO-S12 v1.1数据集是由IBM Research Europe、德国宇航中心等机构的研究人员Benedikt Blumenstiel、Nassim Ait Ali Braham、Conrad M Albrecht等共同开发的。该数据集在原有SSL4EO-S12的基础上,进一步解决了数据对齐和数据分析就绪格式限制的问题。SSL4EO-S12 v1.1包含了全球最大的10,000个城市及其50公里范围内的周边地区,跨越四个季节,共计近一百万个图像块,为大规模预训练基础模型提供了丰富的多模态、多时相的地球观测数据。该数据集采用Zarr文件格式,便于云端的加载和元信息的表示,如云掩膜和地理位置信息,并遵循CC-BY-4.0许可,以促进开放研究并为基础模型的未来发展提供坚实基础。
当前挑战
在领域问题上,SSL4EO-S12 v1.1数据集面临的挑战包括多模态数据对齐、季节性变化的处理以及从不同源收集的数据的整合。在构建过程中,数据集构建团队克服了数据错位、数据结构限制、云掩膜错误、以及不同季节和时间戳的数据匹配等挑战。为了提高数据质量,研究团队引入了严格的数据筛选和预处理步骤,包括数据对齐、重投影、滤波以及缺失值处理,确保了数据集的质量和适用性。
常用场景
经典使用场景
SSL4EO-S12 v1.1数据集作为一款多模态、多季节的地球观测数据集,其经典使用场景主要集中在为大规模基础模型进行预训练。该数据集通过融合Sentinel-1和Sentinel-2两种模态的遥感影像,提供了丰富的时空输入,支持自监督学习在地球观测领域的深入应用。
衍生相关工作
基于SSL4EO-S12 v1.1数据集,已有多项相关工作取得显著进展。例如,对比学习方法和基于变压器的架构在经过该数据集预训练后,性能得到了显著提升。此外,该数据集的发布也推动了自我监督学习和地理空间分析领域的未来发展。
数据集最近研究
最新研究方向
SSL4EO-S12 v1.1数据集的发布,旨在解决先前版本中数据对齐和数据分析就绪性方面的挑战。该数据集的构建,充分考虑了地球观测领域对大规模、多模态、多季节性数据集的需求,为预训练大规模基础模型提供了坚实基础。研究方向的焦点在于提升自监督学习在遥感领域的应用,特别是在多模态融合和多时态分析方面。通过引入更为严格的数据筛选和更优化的数据结构,SSL4EO-S12 v1.1为地学分析、城市规划以及灾害监测等多个下游任务提供了强大的数据支撑,进一步推动了地球观测领域的研究进展。
相关研究论文
- 1SSL4EO-S12 v1.1: A Multimodal, Multiseasonal Dataset for Pretraining, UpdatedIBM Research Europe, 德国航空航天中心, 朱利叶斯·马克斯·普朗克超级计算中心 · 2025年
以上内容由遇见数据集搜集并总结生成



