Copernicus-Pretrain, Copernicus-FM, Copernicus-Bench
收藏github2025-03-20 更新2025-03-20 收录
下载链接:
https://github.com/zhu-xlab/Copernicus-FM
下载链接
链接失效反馈官方服务:
资源简介:
Copernicus-Pretrain是一个大规模的预训练数据集,包含来自所有主要Copernicus Sentinel任务的18.7M对齐图像,覆盖从地球表面到大气层的范围。Copernicus-FM是一个统一的基础模型,能够处理任何光谱或非光谱传感器模态。Copernicus-Bench是一个系统评估基准,包含15个层次化的下游任务,涵盖所有主要Sentinel任务。
Copernicus-Pretrain is a large-scale pre-training dataset containing 18.7M aligned images from all major Copernicus Sentinel missions, covering the range from the Earth's surface to the atmosphere. Copernicus-FM is a unified foundation model capable of processing any spectral or non-spectral sensor modalities. Copernicus-Bench is a systematic evaluation benchmark that includes 15 hierarchical downstream tasks covering all major Sentinel missions.
创建时间:
2025-03-14
原始信息汇总
Copernicus Foundation Model 数据集概述
数据集简介
Copernicus Foundation Model 是一个用于地球视觉的统一基础模型,旨在处理来自 Copernicus Sentinel 任务的各种光谱和非光谱传感器数据。该数据集包含三个主要部分:Copernicus-Pretrain、Copernicus-FM 和 Copernicus-Bench。
数据集组成部分
1. Copernicus-Pretrain
- 描述: Copernicus-Pretrain 是一个大规模的预训练数据集,包含来自所有主要 Copernicus Sentinel 任务的 1870 万张对齐图像,覆盖从地球表面到大气层的范围。
- 数据格式:
- 原始格式(GeoTiff):即将发布。
- 流式格式(WebDataset):可在 HuggingFace 上获取。
- 数据组织: 图像被组织成约 31 万个区域网格(0.25°x0.25°,与 ERA5 一致),密集覆盖整个陆地和近海海洋,时间序列来自八个不同的 Sentinel 模态。
2. Copernicus-FM
- 描述: Copernicus-FM 是一个统一的基础模型,能够处理任何光谱或非光谱传感器模态,使用扩展的动态超网络和灵活的元数据编码。该模型在 Copernicus-Pretrain 数据集上通过掩码图像建模和持续蒸馏进行预训练。
- 模型权重: 可在 HuggingFace 上获取。
3. Copernicus-Bench
- 描述: Copernicus-Bench 是一个系统化的评估基准,包含 15 个分层下游任务,涵盖所有主要 Sentinel 任务(S1, S2, S3, S5P)。其中 9 个任务来自现有数据集,6 个是新策划的。
- 任务分类:
- L1: 云分割任务(如 Cloud-S2、Cloud-S3)。
- L2: 土地利用和土地覆盖分类任务(如 EuroSAT-S1、BigEarthNet-S1)。
- L3: 高级应用任务(如 Flood-S1、Biomass-S3)。
- 数据集访问: 基准数据集可在 HuggingFace 上获取。
许可证
- 该仓库使用 Apache License 2.0 许可证。
- Copernicus-Pretrain 数据集、Copernicus-Bench 中新策划的数据集以及 Copernicus-FM 的预训练权重使用 CC-BY-4.0 许可证。
引用
bibtex @misc{wang2025unifiedcopernicusfoundationmodel, title={Towards a Unified Copernicus Foundation Model for Earth Vision}, author={Yi Wang and Zhitong Xiong and Chenying Liu and Adam J. Stewart and Thomas Dujardin and Nikolaos Ioannis Bountos and Angelos Zavras and Franziska Gerken and Ioannis Papoutsis and Laura Leal-Taixé and Xiao Xiang Zhu}, year={2025}, eprint={2503.11849}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.11849}, }
搜集汇总
数据集介绍

构建方式
Copernicus-Pretrain数据集的构建基于对Copernicus Sentinel任务(S1-S5P)的扩展,整合了1870万张对齐的图像,覆盖了从地球表面到大气层的广泛区域。这些图像被组织成约31万个区域网格(0.25°x0.25°),与ERA5数据一致,确保了时间序列的连续性和地理覆盖的密集性。数据集以GeoTiff和WebDataset两种格式提供,便于不同应用场景下的使用。
特点
Copernicus-Pretrain数据集的特点在于其大规模和多模态性,涵盖了Sentinel任务的所有主要传感器数据。数据集不仅提供了高分辨率的地球观测图像,还通过时间序列数据捕捉了地球表面的动态变化。此外,数据集的区域网格设计使得数据在空间和时间上都具有高度一致性,为地球科学研究和应用提供了坚实的基础。
使用方法
Copernicus-Pretrain数据集的使用方法包括通过HuggingFace平台访问WebDataset格式的数据流,或等待GeoTiff格式的原始数据发布。研究人员可以利用这些数据进行地球观测模型的预训练,或用于开发新的地球科学应用。数据集的详细信息和访问指南可在GitHub页面的Copernicus-Pretrain目录下找到。
背景与挑战
背景概述
Copernicus系列数据集由Yi Wang等人于2025年提出,旨在构建一个统一的地球视觉基础模型。该系列数据集包括Copernicus-Pretrain、Copernicus-FM和Copernicus-Bench,涵盖了从地球表面到大气层的多模态遥感数据。Copernicus-Pretrain扩展了SSL4EO-S12数据集,整合了来自Sentinel系列卫星的1870万张对齐图像,覆盖了全球陆地和近海区域。Copernicus-FM则是一个能够处理任何光谱或非光谱传感器模态的统一基础模型,通过动态超网络和灵活的元数据编码实现多模态数据的统一处理。Copernicus-Bench则提供了一个系统化的评估基准,包含15个层次化的下游任务,覆盖了Sentinel系列卫星的主要应用领域。这一系列数据集的发布为地球科学领域的多模态数据分析和模型训练提供了重要支持。
当前挑战
Copernicus系列数据集在构建和应用过程中面临多重挑战。首先,多模态数据的对齐与整合是一个复杂的技术难题,尤其是来自不同传感器和时间序列的数据需要精确的空间和时间对齐。其次,基础模型的训练需要处理大规模数据,这对计算资源和算法效率提出了极高要求。此外,下游任务的多样性和复杂性要求模型具备强大的泛化能力,能够适应从预处理到专业应用的不同场景。数据集的构建还涉及数据隐私和共享协议的制定,确保数据在开放共享的同时符合相关法律和伦理规范。这些挑战不仅考验了数据集的构建技术,也为地球科学领域的研究提供了新的研究方向。
常用场景
经典使用场景
Copernicus-Pretrain数据集在地球观测领域具有广泛的应用,特别是在多模态遥感数据的预训练任务中。该数据集整合了来自Copernicus Sentinel系列卫星的1870万张对齐图像,覆盖了从地表到大气层的多个层次。研究人员可以利用这些数据进行大规模的自监督学习,提升模型在遥感图像分类、分割和变化检测等任务中的表现。
解决学术问题
Copernicus-Pretrain数据集解决了遥感领域数据稀缺和模态不统一的问题。通过提供多模态、多时间序列的对齐图像,该数据集为研究人员提供了一个统一的预训练平台,显著提升了模型在跨模态任务中的泛化能力。此外,其覆盖全球的地理范围和时间序列数据为气候变化、土地利用和自然灾害监测等研究提供了强有力的支持。
衍生相关工作
Copernicus-Pretrain数据集衍生了许多经典的研究工作,特别是在多模态遥感数据的预训练和迁移学习领域。基于该数据集,研究人员开发了Copernicus-FM模型,该模型能够处理任意光谱或非光谱传感器模态,并在多个下游任务中表现出色。此外,Copernicus-Bench基准测试集的推出进一步推动了遥感领域任务的标准化和评估方法的改进。
以上内容由遇见数据集搜集并总结生成



