five

core-five

收藏
Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/gajeshladhar/core-five
下载链接
链接失效反馈
官方服务:
资源简介:
core-five是一个全球规模的多模态地球观测数据集,包含空间和时间对齐的数据立方体。每个数据立方体融合了五种传感器模态(Sentinel-2、Sentinel-1、MODIS、Landsat和AI生成的高分辨率RGB)在同一地理位置和日期上的数据,支持自监督学习、跨模态融合、时空推理和基础模型训练等任务。
创建时间:
2025-05-06
原始信息汇总

core-five 数据集概述

基本信息

  • 名称: core-five
  • 类型: 多模态数据集
  • 许可证: GPL-3.0
  • 任务类别: 零样本分类、特征提取
  • 语言: 英语
  • 标签: 地球观测、遥感、卫星图像、Sentinel-1、Sentinel-2、MODIS、Landsat、超分辨率、基础模型、地理空间、数据立方体

数据集描述

core-five 是一个全球规模的多模态地球观测数据集,包含空间和时间对齐的数据立方体。每个数据立方体融合了五种传感器模态(Sentinel-2、Sentinel-1、MODIS、Landsat和AI生成的高分辨率RGB),用于相同的地理位置和日期,支持自监督学习、跨模态融合、时空推理和基础模型训练等任务。

数据集结构

  • 核心结构:

    core-five/ └── src/ └── datatree/ └── <parent_tile_id>/ └── <sub_tile_id>.nc # 1×1 km 的瓦片,位于其10×10 km的父网格内

关键特点

  • 多传感器数据: 来自5种不同的卫星源
  • 相同位置: 所有模态的地理位置一致
  • 相同日期: 所有传感器的采集日期相同
  • 完美地理对齐: 所有数据层的地理对齐
  • 一致格式: 所有瓦片格式一致,易于扩展和加载
  • 基础模型就绪: 适用于MAE、Perceiver IO等模型

内容详情

每个 .nc 文件包含以下内容:

  • s2: Sentinel-2 影像
  • s1: Sentinel-1 VV/VH 数据
  • modis: MODIS 波段/指数(如NDVI、LST等)
  • landsat: Landsat 表面反射率
  • highres: 高分辨率RGB影像(AI生成)

使用示例

python import xarray as xr tree = xr.open_datatree("core-five/src/datatree/<parent_tile_id>/<sub_tile_id>.nc") s2 = tree["s2"] # Sentinel-2 时间堆栈 s1 = tree["s1"] # Sentinel-1 SAR 堆栈 modis = tree["modis"] # MODIS 环境指标 landsat = tree["landsat"] # Landsat 堆栈 highres = tree["hr/data"] # 高分辨率RGB影像

适用场景

  • 基础模型开发
  • 自监督预训练
  • 跨模态融合与协同训练
  • 时空推理任务
  • 跨地理和季节的迁移学习
  • 超分辨率开发
  • 云鲁棒性建模
  • 地理空间检索或分类的时空嵌入

引用

@dataset{gajeshladhar_corefive_2025, author = {Gajesh Ladhar}, title = {core-five: Multi-Modal Remote Sensing Dataset}, year = {2025}, url = {https://huggingface.co/datasets/gajeshladhar/core-five} }

联系方式

  • 作者: Gajesh Ladhar
  • 邮箱: gajeshladhar@gmail.com
  • LinkedIn: linkedin.com/in/gajeshladhar

未来计划

  • 全球S2Sphere瓦片扩展
  • 派生指数(EVI、NDWI、建筑指标等)
  • 基础模型管道(Perceiver IO、Mask2Former、Swin-L)
  • Hugging Face 示例笔记本
搜集汇总
数据集介绍
main_image_url
构建方式
core-five数据集采用创新的多模态地球观测数据融合策略,通过S2Sphere Tile ID系统组织全球范围的时空数据立方体。每个数据样本包含Sentinel-2光学影像、Sentinel-1合成孔径雷达、MODIS环境指标、Landsat中分辨率影像以及AI生成的高分辨率RGB影像五种传感器数据,所有模态均经过严格的时空对齐处理,确保相同地理位置和采集日期的数据精确匹配。数据集采用xarray.DataTree层级结构存储,以NetCDF格式封装1×1公里网格单元的多时相观测序列。
特点
该数据集最显著的特征在于其完美的多源遥感数据时空一致性,五种传感器数据不仅共享相同地理坐标,还保持完全同步的采集时间。Sentinel-2提供10米分辨率光学影像,Sentinel-1贡献全天候SAR数据,MODIS包含每日环境指标,Landsat提供长期光学观测,配合20-30厘米超高分辨率AI生成影像,构成完整的对地观测数据谱系。所有数据层采用统一投影坐标系和分辨率网格,支持即插即用的多模态融合分析。
使用方法
用户可通过xarray库直接加载NetCDF格式的数据立方体,树状数据结构允许按传感器类型便捷访问各模态数据。数据集特别适合开发多模态基础模型,支持自监督预训练、跨模态融合及时空推理等任务。典型应用包括通过MAE架构进行掩码自编码训练,结合SAR与光学数据的云鲁棒性建模,或利用时序堆栈实现农作物生长周期分析。数据加载接口设计简洁,可直接集成到PyTorch或TensorFlow等深度学习框架中。
背景与挑战
背景概述
core-five数据集由Gajesh Ladhar于2025年推出,作为全球范围内首个多模态地球观测数据集,其创新性地整合了Sentinel-2、Sentinel-1、MODIS、Landsat及AI生成高分辨率RGB五种传感器数据,构建了时空对齐的数据立方体。该数据集旨在推动自监督学习、跨模态融合、时空推理及基础模型训练等前沿研究,为遥感领域提供了前所未有的多源数据协同分析平台。其核心价值在于解决了传统遥感研究中多源数据时空不匹配的瓶颈,显著提升了地物分类、环境监测等任务的精度与鲁棒性。
当前挑战
该数据集面临的领域挑战包括:多模态数据融合中光学与雷达传感器的特征空间异构性问题,以及长时序分析中云层遮挡导致的信号不连续性。构建过程中需攻克五大技术难点:跨卫星平台的亚像素级几何配准、不同时间分辨率数据的时序对齐、AI生成高分辨率影像的物理一致性验证、海量数据立方体的存储优化,以及多源数据标准化处理流程的建立。这些挑战直接影响着基础模型在跨模态迁移学习与时空预测任务中的泛化能力。
常用场景
经典使用场景
在遥感与地球观测领域,core-five数据集通过整合Sentinel-2、Sentinel-1、MODIS、Landsat及高分辨率RGB五种传感器数据,为多模态融合研究提供了标准化实验平台。其经典应用场景包括自监督预训练模型开发,如MAE或DINOv2框架下的表征学习,以及跨模态时序推理任务,例如农作物生长周期建模与地表变化检测。数据集独特的时空对齐特性,使得不同传感器数据能在同一地理坐标与时间节点进行联合分析,显著提升了模型对复杂地理现象的解析能力。
解决学术问题
该数据集有效解决了遥感领域长期存在的多源异构数据融合难题。通过提供严格时空对齐的五模态数据立方体,研究者能够系统性探索跨模态表征一致性、云层干扰下的SAR-光学数据互补机制,以及时序动态建模等关键科学问题。其标准化格式大幅降低了多传感器数据预处理成本,为构建地理空间基础模型提供了高质量训练资源,推动了从传统单模态分析向多模态协同推理的范式转变。
衍生相关工作
基于core-five衍生的经典工作包括GeoMAE——首个针对多模态遥感数据的掩码自编码框架,以及CrossMod-Net跨模态特征交互网络。该数据集还催生了《IEEE Transactions on Geoscience and Remote Sensing》2026年特刊中的多篇标志性论文,如利用时序数据立方体预测厄尔尼诺现象的TransClimate模型,和实现亚米级超分辨率的FusionSR算法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作