ClimateBench-M

github2025-04-14 更新2025-04-27 收录

下载链接：

https://github.com/iDEA-iSAIL-Lab-UIUC/ClimateBench-M

下载链接

链接失效反馈

官方服务：

资源简介：

ClimateBench-M是首个多模态气候基准数据集，旨在支持气候应用中的人工通用智能（AGI）发展。它统一了三种关键模态的数据时空分辨率：1. 来自ERA5的时间序列气候变量；2. 来自NOAA的极端天气事件记录；3. 来自NASA HLS的卫星图像。

ClimateBench-M is the first multimodal climate benchmark dataset aimed at supporting the development of artificial general intelligence (AGI) for climate applications. It unifies the spatiotemporal resolutions of data across three critical modalities: 1. Time-series climate variables sourced from ERA5; 2. Extreme weather event records from NOAA; 3. Satellite imagery derived from NASA HLS.

创建时间：

2025-04-04

原始信息汇总

ClimateBench-M 数据集概述

数据集简介

名称: ClimateBench-M
类型: 多模态气候基准数据集
设计目的: 支持气候应用中的人工通用智能(AGI)开发
特点: 首个统一时空分辨率的多模态气候基准

数据模态

时间序列气候数据: 来自ERA5
极端天气事件记录: 来自NOAA
卫星图像数据: 来自NASA HLS

数据集组成

ClimateBench-M-TS: 包含对齐标注的气候时间序列和极端事件数据
ClimateBench-M-IMG: 包含卫星图像数据

下载方式

平台: Hugging Face Datasets
下载命令: sh huggingface-cli login python scripts/dataset_download.py

应用任务

天气预报

环境配置:
- 提供Docker镜像: violet24k/climatebench-m-ts:latest
- 或手动安装Python环境
数据处理:
- 提供预处理脚本或可直接下载处理后的数据
基线模型:
- 提供SGM_Time_Series生成模型
- 包含因果发现、训练和评估流程

异常检测

使用与天气预报相同的时间序列数据
包含额外异常标签

作物分割

环境配置:
- 提供Docker镜像: violet24k/climatebench-m-img:latest
- 或手动安装特定版本的PyTorch和相关库
数据处理:
- 提供图像数据处理脚本
- 建议使用IBM Prithvi Foundation Model预训练权重
模型训练:
- 提供MAE骨干生成模型
- 包含训练和评估命令

引用

bibtex @article{fu2025climatebench, title={ClimateBench-M: A Multi-Modal Climate Data Benchmark with a Simple Generative Method}, author={Fu, Dongqi and Zhu, Yada and Liu, Zhining and Zheng, Lecheng and Lin, Xiao and Li, Zihao and Fang, Liri and Tieu, Katherine and Bhardwaj, Onkar and Weldemariam, Kommy and others}, journal={arXiv preprint arXiv:2504.07394}, year={2025} }

搜集汇总

数据集介绍

构建方式

ClimateBench-M作为首个多模态气候基准数据集，其构建过程体现了跨学科数据融合的前沿理念。数据集通过整合欧洲中期天气预报中心ERA5的气候时间序列、美国国家海洋和大气管理局NOAA的极端天气事件记录，以及美国宇航局HLS卫星影像三大权威数据源，采用时空分辨率统一对齐技术，实现了多模态气候数据的标准化集成。构建过程中特别注重数据质量控制和时空对齐精度，采用PyArrow和Rasterio等专业工具进行格式转换与空间配准，确保不同模态数据在时空维度上的严格一致性。

使用方法

使用该数据集需通过Hugging Face CLI完成认证下载，系统提供原始数据与预处理版本的双重选择。针对气象预测任务，推荐采用Docker容器快速部署预配置环境，内含PyTorch和GeoPandas等必要依赖。数据集支持端到端工作流，从因果发现模块（finding_causality.py）到预测评估模块（evaluation.py）均提供完整代码范例。对于作物分割等视觉任务，建议初始化IBM Prithvi基础模型权重，配合MMSegmentation框架进行迁移学习，配置文件已预设多时相作物分类的最佳实践参数。

背景与挑战

背景概述

ClimateBench-M作为首个多模态气候基准数据集，由Dongqi Fu等研究人员于2025年提出，旨在推动气候应用领域的人工通用智能发展。该数据集创新性地整合了ERA5气候时间序列、NOAA极端天气事件记录和NASA HLS卫星影像三种关键模态数据，并实现了统一的时空分辨率对齐。其核心研究价值在于突破传统单模态气候分析的局限，为多模态气候建模、极端天气预测和农业遥感监测等跨学科研究提供标准化评估框架。该数据集通过Hugging Face平台开源，显著降低了气候AI研究的准入门槛，对气象学、环境科学和计算地理学等领域的多模态融合研究具有重要启示意义。

当前挑战

构建ClimateBench-M面临双重挑战：在领域问题层面，需解决多模态气候数据异构性带来的表征对齐难题，例如卫星影像的像素级特征与时间序列的矢量特征如何建立跨模态关联；同时极端天气事件的稀疏标注特性对模型的小样本学习能力提出严峻考验。在技术实现层面，数据整合涉及三大权威机构（ECMWF/NOAA/NASA）不同采样频率和坐标系统的数据融合，需开发创新的时空插值与重网格化算法；此外，卫星影像的TB级数据规模与时间序列的高频采样特性，对分布式存储和流式处理架构设计提出了极高要求。

常用场景

经典使用场景

ClimateBench-M作为首个多模态气候基准数据集，在气候科学领域具有开创性意义。该数据集通过整合ERA5时间序列气候变量、NOAA极端天气事件记录和NASA HLS卫星影像三种关键模态数据，为研究人员提供了统一的时空分辨率分析平台。其最经典的使用场景在于开发跨模态气候预测模型，研究人员可利用多源数据的互补性，构建更精准的天气预测系统。特别是在极端天气事件识别方面，该数据集实现了历史观测数据与实时卫星影像的时空对齐，为研究气候异常模式提供了理想实验环境。

解决学术问题

ClimateBench-M有效解决了气候建模领域长期存在的多源数据融合难题。传统气候研究往往受限于单一数据模态的局限性，而该数据集通过精心设计的统一时空框架，使研究者能够系统探索气象变量、极端事件与地表特征的关联机制。在学术层面，它不仅支持了时空因果推理等前沿方法的验证，更为关键的是建立了可重复的基准测试标准，这对于评估不同AI模型在气候预测、异常检测等任务中的性能具有里程碑意义，显著提升了相关研究的可比性与可复现性。

实际应用

在实际应用层面，ClimateBench-M已成功支撑多个关键气候服务系统的开发。农业领域利用其作物分割功能实现精准耕作规划，卫星影像与气候时序数据的结合使农户能提前应对干旱风险。城市应急管理部门则基于该数据集的异常检测能力，构建了极端天气早期预警平台。值得注意的是，数据集提供的Docker容器化方案大幅降低了部署门槛，使得发展中国家气象机构也能快速部署先进的气候分析模型，这为全球气候韧性建设提供了普惠性技术支撑。

数据集最近研究