SeasonBench-EA
收藏github2025-05-19 更新2025-05-20 收录
下载链接:
https://github.com/SauryChen/SeasonBench-EA
下载链接
链接失效反馈官方服务:
资源简介:
SeasonBench-EA是一个多源基准数据集,用于推进基于AI的季节性预测,具有1-6个月的提前期。它集成了ERA5再分析数据和多个主要操作预报中心的集合预报,专注于东亚地区(8-60N, 58-163E)。数据集包括月、日和6小时分辨率的再分析数据,以及月分辨率的数值模型集合预报。
SeasonBench-EA is a multi-source benchmark dataset for advancing AI-driven seasonal forecasting with lead times of 1 to 6 months. It integrates ERA5 reanalysis data and ensemble forecasts from multiple major operational forecasting centers, focusing on the East Asian region (8-60°N, 58-163°E). The dataset includes reanalysis data at monthly, daily, and 6-hourly resolutions, as well as monthly-resolution numerical model ensemble forecasts.
创建时间:
2025-05-16
原始信息汇总
SeasonBench-EA 数据集概述
🌍 数据集简介
SeasonBench-EA是一个多源基准数据集,专注于东亚地区(8-60N, 58-163E)的季节性预测和数值模型后处理研究。数据集包含:
- ERA5再分析数据:包括月、日和6小时分辨率的数据。
- 多中心集合预报数据:来自CMCC、DWD、ECCC、ECMWF和Météo-France等机构的月分辨率预报数据。
📊 数据内容
再分析数据
- 来源:ERA5数据,来自Copernicus Climate Data Store。
- 时间覆盖:
- 月数据:1940-2024年。
- 6小时和日数据:1991-2024年。
- 空间分辨率:
- 东亚地区:0.25度。
- 全球范围:0.25度和1度。
- 变量:
- 地表变量:2米温度、平均海平面气压、总降水。
- 气压层变量(1000, 850, 700, 500, 200 hPa):温度、风速分量、位势、比湿。
- 边界变量:边界层高度、地表向下太阳辐射、土壤温度、土壤水层体积、雪反照率、雪深、海表温度、海冰覆盖。
- 常量:地表位势、海陆掩膜、土壤类型。
数值模型集合预报
- 来源:Copernicus Climate Change Service (C3S)。
- 时间覆盖:1993-2024年。
- 空间分辨率:1.0度全球覆盖。
- 模型中心及系统:
- CMCC:SPS 3.5系统,40个成员(1993-2016),50个成员(2021-2024)。
- DWD:GCFS2.1系统,30个成员(1993-2019),50个成员(2021-2024)。
- ECCC:GEM5-NEMO系统,10个成员(1993-2024)。
- ECMWF:SEAS5系统,25个成员(1981-2016),51个成员(2017-2024)。
- Météo-France:System 8系统,25个成员(1993-2018),51个成员(2022-2024)。
⚙️ 基准任务
- 基于机器学习的季节性预测:
- 训练数据:1940-2015年ERA5月数据。
- 验证数据:2016-2019年。
- 测试数据:2020-2024年。
- 数值模型集合预报的后处理:
- 训练数据:1993-2024年数值模型结果。
- 验证数据:2009-2011年。
- 测试数据:2013-2016年。
📈 评估指标
- 确定性指标:均方根误差(RMSE)、偏差(Bias)、Willmott一致性指数(WI)、异常相关系数(ACC)、能量谱(Energy spectrum)、临界成功指数(CSI)。
- 概率性指标:秩直方图(Rank histogram)、连续排名概率得分(CPRS)、扩展技能比(SSR)。
- 后报评估:东亚夏季降水(6-8月)的ACC和TCC评估(2006-2020年)。
🔧 使用指南
- 数据下载:
- 子集数据:SeasonBench-EA (subset)
- 完整数据:Baidu netdisk(提取码:xgq9)
- 数据预处理:提供脚本将NetCDF格式转换为.npz文件,处理NaN值。
- 训练与评估:支持多种机器学习模型(如U-Net、ViT、FNO、VAE)和物理基线模型(如气候学、持续性、NWP预测)。
📢 参考与声明
- 部分框架设计灵感来自ChaosBench。
- GraphCast实现基于NVIDIA - physicsnemo。
- SFNO实现基于NVIDIA - torch-harmonics。
搜集汇总
数据集介绍

构建方式
SeasonBench-EA数据集通过整合多源气象数据构建而成,其核心数据来源于欧洲中期天气预报中心(ECMWF)的ERA5再分析数据,覆盖1940年至2024年的月、日和6小时分辨率数据。同时,该数据集还纳入了多个领先气象预报中心(如CMCC、DWD、ECMWF等)的集合预报数据,时间跨度为1993年至2024年。数据空间范围聚焦于东亚地区(8-60N, 58-163E),并提供了全球尺度的背景信息以支持模型训练。数据集构建过程中,通过严格的数据质量控制和时间一致性处理,确保了数据的科学性和可比性。
特点
SeasonBench-EA数据集的特点在于其多源性和高时空分辨率。数据集不仅包含了丰富的变量类型(如2米温度、总降水、位势高度等),还提供了从月到6小时的多时间尺度数据。其独特的双任务设计(基于机器学习的季节性预测和数值模式后处理)为研究者提供了全面的实验平台。此外,数据集还包含了多种评估指标(如RMSE、ACC、CRPS等),支持从确定性到概率性的全方位模型性能评估。东亚区域的精细化数据(0.25度分辨率)尤其适合区域气候研究。
使用方法
使用SeasonBench-EA数据集时,研究者可从百度网盘或指定DOI链接获取数据。数据预处理阶段需将NetCDF格式转换为.npz文件,并进行坐标转换和缺失值处理。模型训练可通过提供的Python脚本实现,支持U-Net、ViT等多种深度学习架构。评估阶段包含对预测结果的定量指标计算和可视化分析。数据集特别提供了针对东亚区域的专用预处理脚本,简化了区域研究的流程。对于后处理任务,数据集还包含了数值模式集合预报的专门处理工具,支持从原始预报到校正结果的全流程分析。
背景与挑战
背景概述
SeasonBench-EA是由气候科学和人工智能交叉领域的研究团队开发的多源基准数据集,旨在推动东亚地区季节性预测的AI技术发展。该数据集整合了ERA5再分析数据和多个领先气象中心的集合预报数据,覆盖1940年至2024年的时间跨度,空间分辨率精细至0.25度。数据集聚焦于东亚区域(8-60N,58-163E),主要解决两个核心科学问题:基于机器学习的季节性预测和数值模式集合预报的后处理。通过提供标准化的评估指标和基准模型,SeasonBench-EA为气候预测领域的研究者提供了一个可靠的实验平台,显著促进了AI技术在气象领域的应用。
当前挑战
SeasonBench-EA面临的挑战主要体现在两个方面:科学问题本身的复杂性和数据构建的技术难度。在科学层面,季节性预测需要解决初始条件不确定性和模式误差传播问题,特别是在东亚季风区,降水预测的时空变异性极大。数据构建方面,多源异构数据的整合面临巨大挑战,包括不同时空分辨率的匹配、缺失数据的填补以及集合预报系统版本不一致等问题。此外,评估指标的多样性要求模型不仅能准确预测确定性结果,还需具备良好的概率预测能力,这对机器学习方法提出了更高要求。
常用场景
经典使用场景
SeasonBench-EA数据集在东亚地区季节性气候预测领域具有重要应用价值。该数据集整合了ERA5再分析数据和多个领先预报中心的集合预报数据,为1-6个月时间尺度的季节性预测提供了坚实基础。研究人员可利用该数据集开展基于机器学习的季节性预测研究,或对数值模式集合预报进行后处理优化,特别适合探索东亚地区复杂的气候系统变化规律。
解决学术问题
该数据集有效解决了季节性气候预测中的关键科学问题。通过提供高时空分辨率的再分析数据和多模式集合预报,研究人员能够深入探讨东亚季风系统演变机制、海陆气相互作用过程等基础问题。同时,数据集设计的标准化评估指标体系,如RMSE、ACC、CRPS等,为客观比较不同预测方法的性能提供了统一基准,推动了预测技术进步。
衍生相关工作
围绕该数据集已衍生出多项创新性研究工作。基于U-Net、ViT、FNO等深度学习架构的预测模型不断涌现,推动了AI在气候预测中的应用。GraphCast等全球尺度模型的引入,显著提升了边界条件处理的物理一致性。这些工作共同促进了数据驱动方法与物理过程的深度融合,为季节性预测开辟了新途径。
以上内容由遇见数据集搜集并总结生成



