SSL4EO-S12-v1.1-Zarr
收藏Hugging Face2026-02-17 更新2026-02-18 收录
下载链接:
https://huggingface.co/datasets/embed2scale/SSL4EO-S12-v1.1-Zarr
下载链接
链接失效反馈官方服务:
资源简介:
SSL4EO-S12-v1.1 Zarr Chunk Files 是一个多模态、多季节的地球观测数据集,主要用于自监督学习和预训练任务。数据集包含246,144个地理位置点,每个点有四个时间戳的数据,涵盖S2L1C、S2L2A、S1GRD、S2RGB和NDVI五种模态。数据以3,846个Zarr Zip文件的形式存储,每个文件包含64个样本(唯一地理位置点)及其四个时间戳的数据。数据集支持高效存储和数据加载,特别适用于大规模地球观测数据的处理和分析。数据集还提供了详细的元数据和标准化值,方便用户进行数据预处理和模型训练。适用于特征提取、遥感图像分析等任务。
创建时间:
2026-02-13
搜集汇总
数据集介绍
构建方式
在遥感与地球观测领域,大规模、高质量的数据集对于推动自监督学习模型的发展至关重要。SSL4EO-S12-v1.1-Zarr数据集的构建基于全球246,144个地理位置,每个位置采集了四个时间戳的多模态遥感影像,涵盖Sentinel-2 L1C、L2A、S1GRD、S2RGB及NDVI等多种数据源。数据以Zarr格式存储,共分为3,846个压缩文件,每个文件包含64个样本,且时间维度独立分块,便于高效存储与按需加载。构建过程中,团队对Sentinel-1 GRD数据的时间对齐问题进行了修正,并针对Sentinel-2数据引入了+1000的偏移量以匹配欧空局最新的处理版本,确保了数据的时效性与一致性。
特点
该数据集的核心特点在于其多模态与多时相的综合设计,为地球观测任务提供了丰富的时空信息。数据集不仅覆盖了光学与雷达等多种遥感模态,还通过四个季节性的时间戳捕捉了地表动态变化。数据以Zarr格式组织,支持高效的分块读取与并行加载,特别适合大规模机器学习训练。此外,每个样本均附带经纬度坐标、投影信息、云掩膜及时间戳等元数据,增强了数据的可解释性与实用性。数据集经过严格的预处理与质量控制,包括偏移校正与时序对齐,确保了其在自监督预训练与下游应用中的可靠性与稳定性。
使用方法
使用该数据集时,研究人员可通过多种方式获取数据,包括HuggingFace Python API、Git LFS或直接从Julich DataHub下载。数据加载推荐使用提供的PyTorch数据集类ZarrDataset,该类支持多模态数据的选择、变换与批次处理。用户可自定义数据增强流程,如随机裁剪与标准化,并利用collate函数将分块数据整合为训练所需的张量格式。对于希望集成TorchGeo或TerraTorch框架的用户,数据集还提供了与GenericMultiModalDataModule兼容的配置文件。标准化参数已预先计算,涵盖各模态的均值与标准差,便于模型训练中的归一化处理。
背景与挑战
背景概述
地球观测领域正经历着从监督学习向自监督学习的范式转变,旨在利用海量无标签遥感数据挖掘深层特征表示。SSL4EO-S12-v1.1-Zarr数据集由德国航空航天中心等机构的研究团队于2025年发布,作为SSL4EO-S12系列的重要更新版本,其核心研究问题聚焦于如何构建一个大规模、多模态、多时相的标准化数据集,以支持地球观测任务中的自监督预训练。该数据集整合了Sentinel-2 L1C、L2A、Sentinel-1 GRD等多种传感器数据,覆盖全球超过24万个地理位置,每个位置包含四个季节的时间序列,为遥感影像理解、变化检测及多模态融合等前沿方向提供了关键数据基础,显著推动了自监督学习在地球科学中的应用深度与广度。
当前挑战
该数据集致力于解决地球观测中自监督预训练的数据稀缺与异构性挑战,其核心问题在于如何从多源、多时相遥感数据中学习通用且鲁棒的特征表示。具体挑战包括:多模态数据对齐的复杂性,例如Sentinel-1雷达数据与Sentinel-2光学影像在时空分辨率与物理含义上的差异;季节变化引入的类内差异,要求模型能够捕捉地表覆盖的动态演变而非短暂干扰;以及大规模数据处理中的存储与访问效率问题。在构建过程中,团队面临数据预处理的技术难题,如Sentinel-2 L1C与L2A版本间的偏移校正、Sentinel-1 GRD数据时间序列的排序错误修复,还需在保持数据完整性的同时,通过Zarr格式实现高效分块存储,以平衡存储成本与读取性能。
常用场景
经典使用场景
在地球观测领域,多模态遥感数据的融合分析已成为提升模型泛化能力的关键途径。SSL4EO-S12-v1.1-Zarr数据集凭借其包含的Sentinel-2 L1C、L2A、S1GRD、S2RGB及NDVI等多模态时序数据,为自监督学习提供了丰富的预训练素材。该数据集常被用于训练对比学习或掩码自编码器等先进模型,使模型能够从海量无标签遥感影像中自动提取具有判别性的特征表示,进而为下游任务如地物分类、变化检测等奠定坚实基础。
衍生相关工作
围绕SSL4EO-S12系列数据集,学术界已衍生出一系列经典研究工作。例如,基于此数据集的对比学习框架被用于构建遥感通用表征模型,显著提升了下游任务的样本效率。同时,多模态融合网络利用其对齐的S1与S2数据,探索了跨传感器特征互补机制。此外,时序自编码器利用其四时相数据学习季节性动态模式,为长期遥感序列分析提供了新的方法论基础,持续推动着地球观测人工智能的前沿探索。
数据集最近研究
最新研究方向
在遥感与地球观测领域,SSL4EO-S12-v1.1-Zarr数据集作为多模态、多时相自监督学习的关键资源,正推动着前沿研究向高效数据存储与跨模态融合方向深化。该数据集采用Zarr格式优化了大规模Sentinel-1/2数据的存取效率,支持时序分离加载,为动态环境监测模型提供了精细化的训练基础。当前研究热点集中于利用其多模态特性(如S2L1C、S2L2A与S1GRD的协同)开发跨传感器预训练框架,以提升土地利用分类、灾害响应等任务的泛化能力。同时,数据集与TerraTorch等工具链的集成,加速了自监督学习在遥感领域的落地,对促进全球环境可持续性分析具有重要科学意义。
以上内容由遇见数据集搜集并总结生成



