five

THOR-Pretrain

收藏
Hugging Face2025-11-10 更新2025-11-10 收录
下载链接:
https://huggingface.co/datasets/FM4CS/THOR-Pretrain
下载链接
链接失效反馈
官方服务:
资源简介:
THOR预训练数据集是一个专注于气候、地球观测的预训练数据集,适用于图像特征提取任务。数据集包含了来自ESA和NASA的地球观测数据,以及Copernicus Sentinel数据,数据量在10K到100K之间。
创建时间:
2025-11-07
原始信息汇总

THOR-Pretrain数据集概述

基本信息

  • 数据集名称: THOR-Pretrain
  • 许可证: CC BY-SA 4.0
  • 标签: 气候、地球观测、预训练
  • 数据规模: 10K<n<100K
  • 任务类别: 图像特征提取

数据配置

  • 配置名称: default
  • 数据文件: global_availability_index.parquet
  • 数据分割: train

数据来源

  • 包含修改的哥白尼哨兵数据(2016-2024)
  • ESA WorldCover项目2020年数据
  • GlobCover数据(ESA 2010和UCLouvain)
  • NASA LP DAAC数据产品(MCD12Q1.061)
  • 欧盟哥白尼土地监测服务DEM数据(EU-DEM v1.0)

项目信息

  • 项目名称: FM4CS
  • 资助机构: 欧洲空间局Φ‑Lab
  • 合同编号: 4000143489/24/I-DT
搜集汇总
数据集介绍
main_image_url
构建方式
THOR-Pretrain数据集作为地球观测与气候科学领域的重要预训练资源,其构建过程融合了多源遥感数据与系统性处理流程。该数据集整合了2016至2024年间经过优化的哥白尼哨兵卫星数据,同时纳入ESA WorldCover全球土地覆盖产品、GlobCover历史地表分类数据、NASA的MCD12Q1植被分类产品以及欧盟数字高程模型等权威数据源。通过严格的时空对齐与质量控制,最终形成以parquet格式存储的结构化训练集,为地球系统建模提供了跨模态的标准化输入。
特点
该数据集的核心特征体现在其多尺度时空覆盖与专业标注体系上。数据规模介于万至十万样本量级,涵盖全球范围的可见光、红外及高程等多波段遥感信息。特别值得注意的是其融合了来自欧空局、美国地质调查局等国际权威机构的标准化标注,包括土地覆盖分类、植被指数和地形特征等多维属性。这种跨机构协作的数据整合模式,使得数据集兼具时空连续性与物理一致性,为深度学习模型理解地球表面动态过程提供了丰富的语义上下文。
使用方法
在具体应用层面,该数据集主要服务于图像特征提取任务的预训练阶段。研究人员可通过加载global_availability_index.parquet文件直接访问经过预处理的训练样本,每个样本包含对齐的多源遥感特征及其对应元数据。建议使用者遵循数据许可证要求,在气候建模、环境监测等场景中构建自监督或迁移学习框架。通过提取卫星影像中的光谱、纹理与时空特征,可有效提升下游任务如地表分类、气候变化分析等应用的模型泛化能力。
背景与挑战
背景概述
随着遥感技术在地球科学领域的深度应用,THOR-Pretrain数据集于2024年由欧洲空间局Φ-Lab通过FM4CS项目资助构建,旨在解决多模态地球观测数据的预训练需求。该数据集整合了2016至2024年间经过优化的哨兵系列卫星数据,并融合了ESA WorldCover全球土地覆盖产品与NASA陆地过程分布式活跃档案中心的生态分区资料,为气候建模与地表动态监测提供了跨时空尺度的基准支持。其多机构协作背景——涵盖鲁汶大学与欧盟哥白尼陆地监测服务——凸显了数据在推动遥感基础模型发展方面的科学价值。
当前挑战
构建过程面临异构数据融合的技术壁垒,需协调哨兵卫星、MODIS及高程数据在分辨率与坐标系统上的差异;同时,领域问题聚焦于提升遥感影像特征提取的泛化能力,需克服地表覆盖类别不平衡、季节性变化干扰以及多云区域数据缺失等固有难题。数据版权与跨机构授权的复杂性进一步增加了标准化处理的难度,而全球尺度样本的空间代表性优化亦成为模型预训练效果的关键制约因素。
常用场景
经典使用场景
在气候变化与地球观测领域,THOR-Pretrain数据集作为多源遥感数据的预训练资源,广泛应用于自监督学习框架中。其整合了Sentinel卫星序列与全球土地覆盖数据,支持模型通过掩码重建等策略提取地表特征的空间语义表示,为下游任务提供通用视觉编码器。
衍生相关工作
该数据集催生了多项经典研究,如融合多模态卫星数据的对比学习框架EarthPT,以及适应极地冰盖监测的迁移学习模型CryoViT。这些工作通过扩展时空感知能力,显著提升了在冰川消融动态分析、城市热岛效应评估等专项任务中的性能表现。
数据集最近研究
最新研究方向
在气候科学和地球观测领域,THOR-Pretrain数据集正推动多模态预训练模型的发展,聚焦于整合卫星遥感数据与深度学习技术。该数据集结合Sentinel和NASA等多源数据,支持气候变化监测、土地利用分类及灾害预警等前沿应用,尤其在应对全球变暖和环境可持续性热点议题中发挥关键作用。其开放共享特性促进了跨学科合作,为构建高精度地球系统模拟工具奠定基础,显著提升了遥感数据分析的自动化与泛化能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作