ClimateBench-M
收藏arXiv2025-04-10 更新2025-04-12 收录
下载链接:
https://github.com/iDEA-iSAIL-Lab-UIUC/ClimateBench-M
下载链接
链接失效反馈官方服务:
资源简介:
ClimateBench-M是由伊利诺伊大学厄巴纳-香槟分校和IBM Research共同创建的多模态气候数据集。该数据集整合了ERA5的时间序列气候数据、NOAA的极端天气事件记录和NASA HLS的卫星图像数据,基于统一的空间-时间粒度进行对齐。数据集包含了238个美国县的2017至2021年数据,旨在支持气候科学中的人工智能技术应用,包括天气预测、极端天气警报和作物分割等任务。
ClimateBench-M is a multimodal climate dataset jointly created by the University of Illinois Urbana-Champaign and IBM Research. It integrates time-series climate data from ERA5, extreme weather event records from NOAA, and satellite image data from NASA HLS, with all data aligned to a unified spatiotemporal granularity. The dataset covers data from 238 U.S. counties spanning 2017 to 2021, and aims to support the application of artificial intelligence technologies in climate science, including tasks such as weather forecasting, extreme weather alerting, and crop segmentation.
提供机构:
伊利诺伊大学厄巴纳-香槟分校, IBM Research
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
ClimateBench-M数据集通过整合来自ERA5的时间序列气候数据、NOAA的极端天气事件数据以及NASA HLS的卫星图像数据,构建了一个多模态气候基准。数据预处理阶段,首先从NOAA的雷暴数据中筛选出与雷暴相关的45个气象特征,覆盖了美国238个县从2017年至2020年的数据。随后,通过地理编码将NOAA数据集中的位置信息与ERA5数据集中的经纬度信息进行匹配,确保数据在时空粒度上的统一。对于NASA HLS卫星图像数据,通过空间对齐方法将其与ERA5数据中的县进行匹配,确保每个图像芯片对应一个县,并进行质量检查以排除云层覆盖或缺失值的影响。
特点
ClimateBench-M数据集具有多模态特性,整合了时间序列、极端天气事件和卫星图像三种数据类型,为气候科学研究提供了全面的数据支持。数据集覆盖了广泛的地理区域和时间范围,具有高度的时空分辨率。此外,数据集还提供了丰富的标注信息,如雷暴标签和作物类型分割标签,支持多种气候相关任务的研究。数据集的设计注重数据的代表性和多样性,通过随机选择和特定标准筛选样本,确保了数据的广泛适用性和科学价值。
使用方法
ClimateBench-M数据集可用于多种气候科学任务,包括天气预测、雷暴警报和作物分割。用户可以通过数据集提供的多模态数据,训练和评估机器学习模型在不同任务上的性能。数据集的使用方法包括数据加载、预处理、模型训练和性能评估。具体而言,用户可以通过加载时间序列数据进行天气预测,利用极端天气事件数据进行异常检测,或使用卫星图像数据进行作物类型分割。数据集还提供了基准模型和评估指标,方便用户进行模型比较和性能验证。
背景与挑战
背景概述
ClimateBench-M是由伊利诺伊大学厄巴纳-香槟分校和IBM研究院的研究团队于2025年提出的多模态气候基准数据集。该数据集整合了来自ERA5的时间序列气候数据、NOAA的极端天气事件数据以及NASA HLS的卫星图像数据,通过统一的空间-时间粒度进行对齐。ClimateBench-M旨在推动气候科学领域的人工通用智能(AGI)发展,支持天气预测、雷暴警报和作物分割等多种任务。该数据集的创建为气候科学研究提供了一个全面的多模态基准,有助于开发更精确的气候模型和预测工具。
当前挑战
ClimateBench-M面临的挑战主要包括两个方面:1) 领域问题的挑战:数据集需要解决多模态气候数据的融合问题,包括时间序列数据、极端天气事件数据和卫星图像数据的对齐与整合,这对模型的跨模态理解能力提出了较高要求;2) 构建过程中的挑战:在数据预处理阶段,需要解决不同来源数据的时间分辨率和空间覆盖范围不一致的问题,同时确保数据质量,如去除卫星图像中的云层遮挡和噪声。此外,数据集的规模和多模态特性也带来了计算和存储上的挑战。
常用场景
经典使用场景
ClimateBench-M数据集作为多模态气候基准,其经典使用场景主要集中在天气预测、极端天气事件预警和农作物分类等任务上。通过整合ERA5时间序列数据、NOAA极端天气事件记录和NASA HLS卫星图像数据,该数据集为研究人员提供了一个统一的时空粒度框架,用于开发和评估跨模态的气候预测模型。
衍生相关工作
ClimateBench-M的推出催生了一系列相关研究,包括基于多模态数据的深度学习方法、时空序列预测模型的优化以及极端天气事件的检测算法。例如,论文中提出的简单生成模型(SGM)在天气预测和异常检测任务中表现出色,为后续研究提供了基准。此外,该数据集还激发了更多关于气候数据多模态融合和跨领域应用的研究工作。
数据集最近研究
最新研究方向
ClimateBench-M作为多模态气候数据基准,近期研究聚焦于整合时序气象数据、极端天气事件记录与卫星影像数据,以推动气候科学领域的人工通用智能发展。该数据集通过统一时空粒度对齐ERA5再分析数据、NOAA风暴事件数据库和NASA HLS卫星影像,支持天气预报、雷暴预警和作物分类三大任务。当前前沿研究主要探索基于编码器-解码器框架的生成式方法在跨模态气候预测中的应用,以及时空因果推理模型在极端天气事件检测中的性能优化。该数据集通过融合物理模型与数据驱动方法,为气候建模提供了新的评估框架,特别是在处理罕见天气模式识别和多模态数据协同分析方面展现出显著优势。
相关研究论文
- 1ClimateBench-M: A Multi-Modal Climate Data Benchmark with a Simple Generative Method伊利诺伊大学厄巴纳-香槟分校, IBM Research · 2025年
以上内容由遇见数据集搜集并总结生成



