WeatherBench Probability
收藏arXiv2022-05-02 更新2024-06-21 收录
下载链接:
https://github.com/pangeo-data/WeatherBench
下载链接
链接失效反馈官方服务:
资源简介:
WeatherBench Probability是由慕尼黑工业大学创建的一个用于中期天气概率预测的基准数据集。该数据集包含从1979年到2018年的预处理数据,重点关注全球地转势、温度和降水场的3天和5天预测。数据集大小为每小时分辨率,水平分辨率为5.625°,共有7个垂直层次。创建过程中,使用了ERA5数据并进行了重网格处理。该数据集主要应用于数据驱动的天气预测,旨在通过概率预测提高天气预报的准确性和可靠性。
WeatherBench Probability is a benchmark dataset developed by the Technical University of Munich for medium-range weather probabilistic forecasting. This dataset includes preprocessed data spanning from 1979 to 2018, focusing on 3-day and 5-day forecasts of global geopotential, temperature and precipitation fields. It has hourly temporal resolution, a horizontal resolution of 5.625°, and a total of 7 vertical levels. During its creation, ERA5 data was used and regridded. This dataset is mainly applied to data-driven weather forecasting, aiming to improve the accuracy and reliability of weather forecasts through probabilistic prediction.
提供机构:
慕尼黑工业大学
创建时间:
2022-05-02
搜集汇总
数据集介绍

构建方式
在气象科学领域,构建高质量的数据集对于推动概率性中期天气预报研究至关重要。WeatherBench Probability数据集以ERA5再分析数据为基础,涵盖了1979年至2018年的全球气象变量,包括位势、温度和降水等关键指标。数据经过预处理,统一重采样至5.625度的水平分辨率,并设置了七个垂直层次,确保了数据的时空一致性。此外,数据集引入了欧洲中期天气预报中心的集成预报系统作为概率基准,通过TIGGE档案提供了50个成员的集合预报数据,为概率预测提供了可靠的参照体系。
特点
该数据集的核心特点在于其专注于概率性中期天气预报的评估框架。它不仅包含了经过标准化的气象变量,还定义了一套完整的概率验证指标,如连续排名概率评分、展宽-技巧比和秩直方图,这些指标能够全面评估预测的可靠性和锐度。数据集特别强调了不同概率机器学习方法的对比,包括蒙特卡洛丢弃法、参数化预测和分类预测,为用户提供了多样化的基准模型。这种设计使得数据集在保持科学严谨性的同时,具备了高度的实用性和可扩展性。
使用方法
研究人员可以利用该数据集进行概率天气预报模型的训练与验证。首先,用户可以从公开服务器获取预处理后的训练和测试数据,这些数据以高效的格式存储,便于直接加载。接着,通过集成数据集提供的评估指标,用户能够量化模型的预测性能,并与操作基准进行对比。数据集支持多种深度学习架构的测试,例如基于残差网络的参数化或分类方法,用户可以根据目标变量的分布特性选择合适的概率建模策略。最终,该框架促进了数据驱动方法在气象预测领域的标准化比较与创新。
背景与挑战
背景概述
在气象科学领域,中期天气预报的准确性一直是核心研究议题,而传统确定性预测方法难以捕捉大气系统的内在不确定性。WeatherBench Probability数据集由慕尼黑工业大学的Sagar Garg、Stephan Rasp与Nils Thuerey等研究人员于2022年提出,作为WeatherBench基准的扩展,专注于概率性中期天气预报。该数据集整合了欧洲中期天气预报中心(ECMWF)的IFS集合预报数据,并引入了连续排名概率评分、扩展技能比和秩直方图等验证指标,旨在为数据驱动的概率预测模型提供标准化评估框架。其创建不仅推动了机器学习在气象领域的应用,还为研究者提供了对比不同概率方法性能的统一平台,显著促进了天气预报可靠性与可解释性的提升。
当前挑战
WeatherBench Probability数据集致力于解决概率性中期天气预报中的关键挑战,包括如何准确量化大气变量的不确定性分布,以及提升非高斯分布(如降水)的预测可靠性。在构建过程中,研究人员面临多重技术难题:例如,在参数化方法中,为复杂变量(如降水)选择合适的概率分布函数并实现稳定训练存在困难,常导致梯度爆炸或参数范围限制;而在分类预测方法中,需平衡离散化分箱的分辨率与模型复杂度,同时处理不同变量(如温度与位势)的数值范围差异,这要求对输入数据进行巧妙的变换与归一化。此外,数据集还需确保与高分辨率操作模型的公平比较,克服网格重采样和初始条件差异带来的验证偏差,这些挑战共同凸显了概率预测在气象科学中的复杂性与前沿性。
常用场景
经典使用场景
在气象科学领域,中程天气预报的准确性对防灾减灾和气候研究至关重要。WeatherBench Probability作为概率性中程天气预报的基准数据集,其经典使用场景在于为数据驱动的气象预测模型提供标准化评估框架。该数据集通过整合预处理的气象数据、定义明确的概率验证指标以及先进的基线模型,使得研究人员能够系统性地比较不同机器学习方法在预测地球物理变量(如地转位势、温度和降水)上的性能,从而推动概率性天气预报技术的发展。
解决学术问题
WeatherBench Probability解决了气象预测中概率性建模的核心学术问题,即如何量化并降低中程天气预报的不确定性。传统确定性方法难以捕捉大气系统的混沌特性,而该数据集通过引入连续排名概率评分、扩展-技能比和排名直方图等概率验证指标,为评估预测分布的可靠性和锐度提供了科学依据。这不仅促进了概率神经网络方法(如蒙特卡洛丢弃、参数化预测和分类预测)的探索,还填补了数据驱动天气预报在概率性基准方面的空白,对提升预测模型的实用性和可信度具有深远影响。
衍生相关工作
WeatherBench Probability的推出催生了多项经典研究工作,推动了数据驱动气象预测的多元化发展。例如,Weyn等人利用立方球坐标变换的卷积神经网络提升了全球天气预报的精度,并将其扩展至次季节预测领域。Rasp和Thuerey则通过预训练残差网络在气候模拟数据上,实现了与动力模型相媲美的预测技能。此外,Keisler的图神经网络研究展示了该数据集在结构化数据建模中的潜力,而生成对抗网络(GANs)的应用进一步探索了空间相干性预测,为概率性天气图的生成开辟了新路径。
以上内容由遇见数据集搜集并总结生成



