WEATHER-5K
收藏arXiv2024-06-20 更新2024-06-24 收录
下载链接:
https://github.com/taohan10200/WEATHER-5K
下载链接
链接失效反馈资源简介:
WEATHER-5K是由香港科技大学上海人工智能实验室创建的大规模全球气象站数据集,包含来自5672个全球气象站的10年每小时气象数据。该数据集覆盖多种关键气象要素,旨在为全球站点气象预报(GSWF)提供一个可靠和可解释的资源,并作为评估现有预测模型的基准。WEATHER-5K不仅支持GSWF方法,还扩展到未来时间序列研究挑战和机会,通过广泛的时序预测基准测试,推动该领域的显著进步。
WEATHER-5K is a large-scale global meteorological station dataset developed by the Shanghai AI Laboratory of the Hong Kong University of Science and Technology. It encompasses 10 years of hourly meteorological data collected from 5,672 global weather stations, covering a wide range of critical meteorological elements. This dataset is designed to provide a reliable and interpretable resource for global site-based weather forecasting (GSWF), and serve as a benchmark for evaluating existing predictive models. Beyond supporting GSWF methodologies, WEATHER-5K also caters to future time series research challenges and opportunities, and drives notable advancements in this domain through comprehensive time series prediction benchmarking.
提供机构:
香港科技大学上海人工智能实验室
创建时间:
2024-06-20
原始信息汇总
WEATHER-5K 数据集
简介
WEATHER-5K 数据集是一个大规模的时间序列预测数据集,包含来自全球 5,672 个气象站的天气数据。该数据集覆盖了 10 年的数据,以每小时为间隔,包含多种关键天气要素(温度、露点温度、风速、风向、海平面气压),为时间序列预测方法和模型的全面评估提供了可靠且可解释的资源。
数据集特点
- 规模:包含来自 5,672 个气象站的数据。
- 时间跨度:覆盖 10 年,以每小时为间隔。
- 数据要素:包括温度、露点温度、风速、风向、海平面气压等多种关键天气要素。
数据集发布
- 发布时间:2024 年 6 月,WEATHER-5K 作为全面基准发布,用于彻底评估时间序列预测方法,并促进该领域的进步。
基准模型
以下模型已在 WEATHER-5K 基准上进行了评估:
- iTransformer - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [ICLR 2024]
- Corrformer - Interpretable weather forecasting for worldwide stations with a unified deep model [NMI 2023]
- PatchTST - A Time Series is Worth 64 Words: Long-term Forecasting with Transformers [ICLR 2023]
- DLinear - Are Transformers Effective for Time Series Forecasting? [AAAI 2023]
- FEDformer - FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting [ICML 2022]
- Pyraformer - Pyraformer: Low-complexity Pyramidal Attention for Long-range Time Series Modeling and Forecasting [ICLR 2022]
- Autoformer - Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting [NeurIPS 2021]
- Informer - Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting [AAAI 2021]
基准结果
基准结果报告了 4 种不同的预测长度(24、72、120 和 168),输入长度为 48。结果包括多种天气要素的 MAE(平均绝对误差)和 MSE(均方误差)。
排名前三的模型结果
🥇 1st Pyraformer
| 预测长度 | 温度 MAE | 温度 MSE | 露点 MAE | 露点 MSE | 风速 MAE | 风速 MSE | 风向 MAE | 风向 MSE | 海平面气压 MAE | 海平面气压 MSE | 总体 MAE | 总体 MSE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 24 | 1.75 | 6.92 | 1.83 | 7.88 | 1.30 | 3.58 | 61.8 | 6930.2 | 1.90 | 9.72 | 13.7 | 1391.7 |
| 72 | 2.47 | 13.03 | 2.67 | 15.39 | 1.52 | 4.97 | 72.0 | 8222.4 | 3.76 | 33.67 | 16.5 | 1657.9 |
| 120 | 2.77 | 16.04 | 3.00 | 18.95 | 1.59 | 5.37 | 75.1 | 8610.7 | 4.43 | 43.91 | 17.4 | 1739.0 |
| 168 | 2.95 | 17.95 | 3.20 | 21.06 | 1.61 | 5.56 | 76.4 | 8773.5 | 4.77 | 49.97 | 17.8 | 1773.6 |
🥈 2nd iTransformer
| 预测长度 | 温度 MAE | 温度 MSE | 露点 MAE | 露点 MSE | 风速 MAE | 风速 MSE | 风向 MAE | 风向 MSE | 海平面气压 MAE | 海平面气压 MSE | 总体 MAE | 总体 MSE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 24 | 1.82 | 7.49 | 1.93 | 8.80 | 1.32 | 3.77 | 63.2 | 7358.8 | 1.99 | 10.84 | 14.1 | 1478.0 |
| 72 | 2.60 | 14.46 | 2.84 | 17.5 | 1.52 | 4.96 | 73.2 | 8713.3 | 4.14 | 40.65 | 16.9 | 1758.2 |
| 120 | 2.97 | 18.36 | 3.24 | 22.16 | 1.59 | 5.42 | 76.4 | 9192.2 | 4.95 | 54.67 | 17.8 | 1858.6 |
| 168 | 3.18 | 20.64 | 3.48 | 24.89 | 1.64 | 5.67 | 78.0 | 9441.1 | 5.36 | 62.31 | 18.3 | 1910.9 |
🥉 3rd Informer
| 预测长度 | 温度 MAE | 温度 MSE | 露点 MAE | 露点 MSE | 风速 MAE | 风速 MSE | 风向 MAE | 风向 MSE | 海平面气压 MAE | 海平面气压 MSE | 总体 MAE | 总体 MSE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 24 | 1.88 | 7.51 | 1.94 | 8.30 | 1.30 | 3.62 | 60.7 | 6906.9 | 2.01 | 10.56 | 13.6 | 1387.4 |
| 72 | 2.75 | 14.84 | 2.86 | 17.24 | 1.53 | 4.86 | 71.5 | 8251.4 | 4.24 | 39.24 | 16.4 | 1631.4 |
| 120 | 3.11 | 18.21 | 3.25 | 21.50 | 1.60 | 5.38 | 75.7 | 8504.5 | 5.15 | 54.31 | 18.3 | 1720.4 |
| 168 | 3.24 | 20.24 | 3.43 | 24.89 | 1.63 | 5.65 | 76.2 | 8718.4 | 5.26 | 58.42 | 18.1 | 1764.4 |
搜集汇总
数据集介绍

构建方式
WEATHER-5K数据集的构建基于全球5,672个气象站的数据,这些数据来源于国家环境信息中心(NCEI)的综合表面数据库(ISD)。数据集涵盖了从2014年到2023年的每小时气象观测,包括温度、露点温度、风速和风向、海平面压力等多个关键气象要素。为了确保数据质量,研究人员对原始数据进行了严格的筛选和后处理,包括缺失数据的插值和质量控制,最终形成了这个全面且可靠的气象数据集。
特点
WEATHER-5K数据集的显著特点在于其全球覆盖范围和时间跨度。该数据集包含了来自全球各地的气象站数据,提供了多样化的气象条件,有助于模型捕捉不同地区的气象模式。此外,数据集的时间覆盖长达十年,每小时记录一次,使得研究人员能够分析长期气象趋势和季节性变化。这些特点使得WEATHER-5K成为评估和优化气象预测模型的理想资源。
使用方法
WEATHER-5K数据集可用于多种气象预测任务,包括但不限于短期和长期气象预报、极端天气事件预测以及气候变化研究。研究人员可以通过该数据集训练和验证各种时间序列预测模型,如深度学习模型、统计模型和混合模型。数据集的公开可用性(https://github.com/taohan10200/WEATHER-5K)使得全球的研究人员和气象机构能够访问和利用这一资源,推动气象预测技术的发展。
背景与挑战
背景概述
全球气象站天气预报(GSWF)在航空、农业、能源和灾害预防等多个领域具有至关重要的作用。近年来,深度学习的进步显著提高了基于公共气象数据的模型优化后的天气预测准确性。然而,现有的GSWF优化和基准测试的公共数据集仍存在显著局限,如规模小、时间覆盖有限以及缺乏全面的变量。这些不足阻碍了它们有效反映当前预测方法的基准,并无法满足实际天气预报的需求。为应对这些挑战,我们推出了WEATHER-5K数据集。该数据集包含来自全球5,672个气象站的全面数据,时间跨度为10年,每小时记录一次,涵盖多个关键气象要素,为预报提供了更可靠和可解释的资源。此外,WEATHER-5K数据集可作为全面评估现有知名预报模型的基准,超越GSWF方法,支持未来时间序列研究中的挑战和机遇。
当前挑战
WEATHER-5K数据集在构建过程中面临多个挑战。首先,现有公共数据集的规模小、时间覆盖有限和变量不全面,导致预报方法在实际应用中的适用性受限。其次,数据收集和处理过程中,需要确保数据的完整性和准确性,特别是在处理缺失数据和选择合适的气象站时。此外,如何有效地利用全球气象站的空间和时间关系,开发出能够捕捉不同地区天气模式的空间感知预报方法,也是一个重要的研究方向。最后,尽管WEATHER-5K数据集提供了丰富的数据资源,但其大规模和高计算需求可能对研究人员的资源构成挑战。
常用场景
经典使用场景
WEATHER-5K数据集的经典使用场景主要集中在全球站点气象预报的优化与基准测试。该数据集包含了来自5,672个全球气象站的10年每小时气象数据,涵盖多种关键气象要素。这使得WEATHER-5K成为评估现有知名预报模型性能的理想基准,不仅限于全球站点气象预报方法,还能支持未来时间序列研究中的挑战与机遇。
实际应用
在实际应用中,WEATHER-5K数据集支持公共气象服务的运营,这对于气象预报研究具有重要意义。此外,气象站数据作为数值天气预报(NWP)模型的重要观测数据来源,有效填补了数值模型与站点预测之间的差距,不仅提高了数值预报的准确性,还在验证和评估NWP模型的预测性能方面发挥了关键作用。
衍生相关工作
WEATHER-5K数据集的发布催生了一系列相关研究工作,特别是在时间序列预测和数值天气预报领域。例如,Corrformer等模型通过直接学习全球气象站观测数据,将全球站点气象预报视为一个端到端的任务,展示了其在捕捉气象数据时空关系方面的潜力。此外,Mamba等新型模型也在时间序列预测中展现了其处理复杂序列依赖的能力。
以上内容由AI搜集并总结生成



