five

NianRan1/HR-Extreme

收藏
Hugging Face2024-06-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NianRan1/HR-Extreme
下载链接
链接失效反馈
官方服务:
资源简介:
HR-Extreme数据集是一个高分辨率数据集,旨在评估最先进模型在预测极端天气事件方面的性能。该数据集包含2020年的17种极端天气事件,基于高分辨率快速刷新(HRRR)数据。数据集分为两个主要文件夹,分别存储2020年上半年和下半年的数据。每个文件夹中的数据以WebDataset格式存储,每10个.npz文件聚合成一个.tar文件。数据集适用于天气预报领域的研究人员,包括物理方法和深度学习方法。

The HR-Extreme dataset is a high-resolution dataset designed to evaluate the performance of state-of-the-art models in predicting extreme weather events. The dataset contains 17 types of extreme weather events from 2020, based on High-Resolution Rapid Refresh (HRRR) data. It is intended for researchers in weather forecasting, encompassing both physical and deep learning methods.
提供机构:
NianRan1
原始信息汇总

数据集概述

许可证信息

  • 许可证类型: CC-BY-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
HR-Extreme数据集聚焦于极端天气事件的高分辨率物理变量特征图构建,其数据源基于2020年全年的HRRR(高分辨率快速刷新)模式输出。数据集以WebDataset格式组织,将每10个.npz文件聚合为一个.tar文件,并按照时间顺序依次编号存储。构建流程依托于NOAA风暴事件数据库与风暴预测中心提供的公开数据,通过索引文件生成脚本(如make_datasetall.py)实现按日期范围筛选与提取,从而系统性地汇集了涵盖17类极端天气事件的高分辨率特征场。
特点
该数据集的核心特色在于其高时空分辨率与极端事件针对性。基于HRRR模式的数据源确保了物理变量在空间尺度上的精细刻画,同时聚焦于2020年7月至12月的极端天气事件,覆盖了风暴、暴雨、暴雪等多种灾害性天气类型。数据采用WebDataset格式存储,兼顾了大规模数据的高效读取与Hugging Face生态的兼容性。此外,数据集提供了完整的构建与索引脚本,支持研究者从原始观测到数值预报模式的灵活调用与评估。
使用方法
使用HR-Extreme数据集时,用户可首先通过make_datasetall.py脚本指定起止日期生成完整的索引文件。随后,利用make_dataset_by_index_file.py配合索引文件提取观测数据(需设置fxx=[0]以使用Herbie工具读取实时观测)。若需评估数值天气预报(NWP)模型效果,可运行make_nwp_predictions.py生成预报数据(设置fxx=[1]表示1小时预报步长),并通过test_nwp.py计算带掩码的均方根误差。对于存储空间有限的场景,支持将预报生成与评估流程在线结合,实现高效迭代验证。
背景与挑战
背景概述
极端天气事件的精准预测是气象学与人工智能交叉领域的前沿课题,其核心挑战在于如何从高分辨率物理变量中捕捉非线性、多尺度的动态演化规律。HR-Extreme数据集由研究团队于ICLR 2025提出,基于NOAA高分辨率快速更新模型(HRRR)数据,聚焦2020年17类极端天气事件的高分辨率特征图,旨在弥合传统数值天气预报与深度学习模型之间的性能鸿沟。该数据集以WebDataset格式存储2020年7月至12月的时空数据,通过标准化索引文件与开源代码支持物理方法与深度学习模型的对比评估,为气象预报领域提供了兼具时效性与精细度的基准测试资源,显著推动了高影响天气事件预测能力的边界拓展。
当前挑战
HR-Extreme数据集所面临的挑战呈现双重维度。在领域问题层面,极端天气事件固有的稀疏性与突发性导致样本分布高度不均衡,传统模型难以从有限的高影响样本中学习泛化特征;同时,高分辨率物理变量间的复杂耦合关系使得模型需同时处理空间异质性与时间依赖性,这对现有深度学习架构的表示能力构成严峻考验。在数据集构建层面,原始HRRR数据的多源异构性要求对17种极端事件类型进行精确标注与对齐,而2020年跨半年的数据清洗与质量控制需兼顾时空连续性,避免因观测缺失或噪声引入系统性偏差;此外,将大规模高维特征图转化为WebDataset格式时,需在存储效率与随机访问性能间取得平衡,以支持高效的大规模模型训练与评估。
常用场景
经典使用场景
HR-Extreme数据集的核心应用场景在于评估与验证极端天气预报模型的性能,尤其是面向高分辨率物理变量特征图的模型。该数据集基于2020年全年的HRRR(高分辨率快速更新)观测数据,系统性地纳入了17类极端天气事件,为研究人员提供了从传统物理方法到前沿深度学习技术之间进行公平、可复现比较的标准化基准。通过将每十个.npz文件打包为一个.tar归档文件,并采用WebDataset格式,HR-Extreme显著优化了大规模高维气象数据的存储与加载效率,使得模型在推理阶段能够直接对高分辨率特征图进行端到端的性能评估,从而精准刻画模型在捕捉极端天气空间结构与强度方面的能力。
实际应用
在实际应用层面,HR-Extreme数据集为气象局、应急管理部门与能源行业提供了高时效性的极端天气预警技术验证平台。由于数据集内嵌了NWP模型的预测脚本与在线评估流程,业务部门可直接利用该数据集测试不同深度学习架构(如卷积神经网络、Transformer或物理信息网络)在真实高分辨率观测上的表现,从而筛选出最适合本地化部署的预测模型。此外,该数据集支持通过索引文件灵活指定时间范围与变量类型,使得农业保险定价、航空航线规划以及可再生能源出力预测等场景能够基于特定极端事件类型进行针对性模型微调与鲁棒性测试,显著降低了从学术研究到业务落地的转化门槛。
衍生相关工作
HR-Extreme数据集的发布已催生了一系列衍生研究工作。其论文被ICLR 2025接收,标志着极端天气预测成为顶级机器学习会议关注的前沿方向。基于该数据集,研究者开发了结合物理约束与注意力机制的混合模型,用于提升对龙卷风、冰雹等小尺度极端事件的时空预测精度;同时,数据集中提供的NWP预测与观测配对的掩码评估方法,启发了多项关于“可学习损失函数”与“不确定性量化”在气象预测中的改进工作。此外,该数据集的WebDataset格式与在线评估流水线设计,已被后续的海洋极端事件与全球风暴数据集采纳为标准化构建模板,推动了整个气象AI领域基准测试的规范化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作