five

HR-Extreme|极端天气预测数据集|数据集创建数据集

收藏
arXiv2024-09-28 更新2024-10-09 收录
极端天气预测
数据集创建
下载链接:
https://arxiv.org/pdf/2409.18885v1
下载链接
链接失效反馈
资源简介:
HR-Extreme数据集是由曼彻斯特大学和湖南大学等机构共同创建的高分辨率极端天气预测数据集。该数据集基于NOAA的HRRR数据,包含17种极端天气类型,如强风、暴雨、冰雹、龙卷风和极端温度等。数据集的创建过程包括从NOAA的Storm Events Database和Storm Prediction Center收集数据,并使用DBSCAN算法进行聚类处理。HR-Extreme数据集旨在提高极端天气预测的准确性,特别是在灾难准备和响应方面。
提供机构:
曼彻斯特大学, 湖南大学, 微软研究院, 中国科学院
创建时间:
2024-09-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
HR-Extreme数据集的构建基于NOAA提供的高分辨率快速刷新(HRRR)数据,该数据集以3公里的分辨率实时更新。数据集涵盖了2020年发生的17种极端天气事件,包括极端温度、冰雹、龙卷风、暴雨等。每个事件通过一系列维度为(69, 320, 320)的特征图来表示,其中69代表物理变量的通道数,320x320表示每个特征图的大小,每个像素对应3公里x3公里的区域。数据集的构建过程中,使用了NOAA风暴事件数据库和风暴预测中心的数据,并通过无监督聚类算法(如DBSCAN)对事件进行分类和过滤,以确保数据的准确性和完整性。
特点
HR-Extreme数据集的主要特点在于其高分辨率和全面性。相比于之前广泛使用的ERA5数据集,HRRR数据集的分辨率提高了近十倍,能够更精确地捕捉天气现象的细节。此外,数据集包含了17种不同类型的极端天气事件,远超以往研究中通常评估的一两种类型。这种多样性和高分辨率使得HR-Extreme成为评估和改进现有深度学习和物理模型在极端天气预测中性能的理想数据集。
使用方法
HR-Extreme数据集的使用方法相对直接,用户可以通过加载数据文件并使用键来检索输入、目标和掩码,以创建用于模型的张量。数据集的文件命名约定清晰,便于用户根据日期和事件类型进行检索和分析。此外,数据集还提供了一个代码接口,允许用户根据需要生成特定年份的数据集,并调整前后时间戳的数量,以满足不同的使用需求。这种灵活性使得HR-Extreme不仅适用于当前的模型评估,也适用于未来的研究和开发。
背景与挑战
背景概述
天气预报作为一项关键的科学事业,深刻影响着人类生活的各个方面,从日常活动到灾害管理和农业规划。精确的天气预测能够减轻自然灾害的影响,优化资源管理,并提升公共安全。传统上,数值天气预报(NWP)模型通过显式求解大规模偏微分方程(PDE)来模拟大气状态,尽管取得了显著成功,但其计算密集型特性限制了其应用。近年来,深度学习的出现为天气预报提供了新的途径,通过隐式求解大规模PDE,深度学习模型如Pangu和Fuxi在生成高分辨率天气预报方面展示了巨大潜力。然而,现有模型在极端天气事件预测方面仍存在显著不足,这促使了HR-Extreme数据集的诞生。该数据集由曼彻斯特大学、湖南大学、微软研究院和中国科学院共同开发,旨在通过高分辨率的极端天气案例,提升天气预报模型在极端天气事件预测中的准确性。
当前挑战
HR-Extreme数据集在构建过程中面临多重挑战。首先,极端天气事件的预测是天气预报中最关键且最具挑战性的部分,现有模型和数据集在此方面表现不佳。其次,数据集的构建需要处理大量高分辨率数据,这不仅增加了计算资源的消耗,还对数据处理技术提出了高要求。此外,极端天气事件的记录和分类存在不确定性,依赖于用户报告和手动过滤,这可能导致事件范围和时间跨度的识别不准确。最后,尽管HR-Extreme数据集包含了多种极端天气类型,但仍未能覆盖所有大型天气现象,如热带低压和热带气旋,这限制了数据集的全面性。这些挑战共同构成了HR-Extreme数据集在实际应用中的主要障碍。
常用场景
经典使用场景
HR-Extreme数据集在极端天气预报领域展现了其经典应用场景。该数据集通过整合高分辨率的极端天气案例,为深度学习模型提供了丰富的训练和评估资源。研究者们利用HR-Extreme数据集,不仅能够提升模型在常规天气预报中的表现,还能显著增强其在极端天气事件中的预测能力。例如,通过训练模型识别和预测龙卷风、强降雨和极端温度等事件,HR-Extreme数据集为构建更为精准和可靠的天气预报系统奠定了基础。
解决学术问题
HR-Extreme数据集解决了天气预报领域中长期存在的学术难题,即如何准确预测极端天气事件。传统的数值天气预报模型虽然在常规天气预报中表现出色,但在处理极端天气事件时往往力不从心。HR-Extreme通过提供高分辨率和多样化的极端天气案例,使得深度学习模型能够更好地捕捉这些复杂现象的特征,从而显著提升了预测精度。这一突破不仅推动了天气预报技术的发展,也为灾害预警和应急管理提供了更为可靠的技术支持。
衍生相关工作
HR-Extreme数据集的推出催生了一系列相关研究工作。研究者们基于该数据集开发了多种改进的深度学习模型,如HR-Heim,其在极端天气预测中的表现优于现有最先进模型。此外,HR-Extreme还激发了对极端天气事件特征提取和模式识别的深入研究,推动了气象学与人工智能的交叉应用。这些衍生工作不仅丰富了天气预报领域的研究内容,也为未来更精准的极端天气预测奠定了坚实基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。

www.nrel.gov 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录