WeatherReal

Name: WeatherReal
Creator: 微软公司
Published: 2024-09-14 16:53:46
License: 暂无描述

arXiv2024-09-14 更新2024-09-18 收录

下载链接：

https://github.com/official-project-page

下载链接

链接失效反馈

官方服务：

资源简介：

WeatherReal是由微软公司创建的一个用于天气预报评估的新型基准数据集，基于全球近地表的实地观测数据。该数据集包括三个版本的子数据集，分别来自ISD、Synoptic Data PBC和MSN天气用户报告，涵盖了广泛的气象变量。数据集经过严格的质量控制和后处理，确保了数据的高质量和可靠性。WeatherReal的创建旨在解决现有再分析数据在某些关键气象变量上的偏差问题，特别是在极端天气和局部天气的捕捉上。该数据集的应用领域主要集中在天气预报模型的评估和改进，旨在提高天气预报的准确性和实用性。

WeatherReal is a novel benchmark dataset for weather forecasting evaluation developed by Microsoft Corporation, which is built on in-situ near-surface observational data across the globe. This dataset comprises three subsets sourced from ISD, Synoptic Data PBC, and MSN Weather user reports, respectively, covering a wide range of meteorological variables. The dataset has undergone rigorous quality control and post-processing procedures to ensure its high quality and reliability. The creation of WeatherReal aims to address the biases of existing reanalysis datasets in certain key meteorological variables, particularly in capturing extreme and localized weather events. The main application scenarios of this dataset focus on the evaluation and improvement of weather forecasting models, with the goal of enhancing the accuracy and practicality of weather forecasts.

提供机构：

微软公司

创建时间：

2024-09-14

搜集汇总

数据集介绍

构建方式

WeatherReal 数据集的构建基于全球近地表的实地观测数据，旨在为天气预报模型提供一个新颖的基准。该数据集整合了来自多个来源的实地观测数据，包括来自 Integrated Surface Database (ISD) 和 Synoptic Data PBC 的高质量观测网络数据，以及来自 MSN 天气用户的天气报告数据。数据集的构建过程中，采用了严格的数据处理和质量控制算法，确保数据的高质量和可靠性。这些算法包括数据提取、站点合并和全面的质量控制，以检测和消除错误数据点，从而提高数据的整体准确性。

使用方法

WeatherReal 数据集的使用方法主要包括模型评估和验证。研究人员和气象学家可以使用该数据集来评估和比较不同天气预报模型的性能，特别是在短期到中期（0-10天）预报问题上。通过将模型预测结果与 WeatherReal 中的实地观测数据进行对比，可以更准确地评估模型的预测能力和误差范围。此外，数据集还可以用于训练新的数据驱动模型，以提高天气预报的准确性和效率。

背景与挑战

背景概述

WeatherReal数据集由Microsoft Corporation的研究团队于近年创建，旨在通过全球近地表实地观测数据，为天气预报模型提供一个新颖的基准。该数据集的核心研究问题在于解决基于再分析数据（如ERA5）训练和评估的AI天气预报模型在某些关键变量（如近地表温度、风、降水和云）上与实际观测存在显著偏差的问题。WeatherReal的引入不仅填补了这一空白，还通过公开可访问的质量控制和评估框架，推动了AI天气预报研究向更具应用导向和操作准备的方向发展。该数据集的创建对天气预报领域具有重要影响力，因为它强调了实地观测在模型训练和评估中的关键作用，从而提高了天气预报的准确性和实用性。

当前挑战

WeatherReal数据集在构建过程中面临多个挑战。首先，收集和处理全球实地观测数据是一项极其繁重的任务，现有研究中使用的数据集往往集中在特定区域或依赖单一数据源，限制了结果的广泛适用性。其次，实地观测数据由于传感器和模块故障，常常存在大量错误，因此需要一个精心设计的质量控制系统来确保数据的高质量。最后，缺乏像ERA5这样的广泛认可和易于获取的实地观测数据集，导致不同研究基于不同的数据集和标准进行模型训练和评估，难以比较模型的能力。WeatherReal通过整合多个实地观测数据集、设计严格的质量控制系统和提供统一的评估标准，旨在解决这些挑战。

常用场景

经典使用场景

WeatherReal数据集的经典使用场景在于评估和改进基于人工智能的天气预报模型。通过提供全球近地表的实地观测数据，该数据集能够帮助研究人员和气象学家更准确地评估现有模型的性能，特别是在捕捉超本地和极端天气条件方面的能力。这种评估不仅限于温度、风速和降水等传统变量，还包括云量等对公众兴趣较大的参数。

解决学术问题

WeatherReal数据集解决了当前基于再分析数据训练和评估的AI天气预报模型在实际观测数据上的偏差问题。再分析数据由于其数值模型的固有特性，往往在近地表温度、风、降水和云等关键变量上与实际观测存在显著差异。WeatherReal通过引入实地观测数据，为学术界提供了一个更为真实和可靠的基准，推动了AI天气预报研究向更具应用导向和操作准备的方向发展。

实际应用

在实际应用中，WeatherReal数据集被广泛用于优化和验证天气预报模型，特别是在极端天气事件的预测和应急管理中。例如，通过对比模型预测与实地观测数据，气象部门可以更准确地发布预警信息，从而有效减少恶劣天气对生命和财产的威胁。此外，该数据集还支持基于用户报告的天气数据进行模型校准，使得预报结果更贴近公众的实际体验。

数据集最近研究