TorNet - 用于龙卷风检测与预测的基准数据集
收藏github2024-06-10 收录
下载链接:
https://github.com/mit-ll/tornet
下载链接
链接失效反馈官方服务:
资源简介:
TorNet数据集由麻省理工学院联合英伟达构建,旨在支持机器学习算法在龙卷风检测与预测领域的开发。该数据集包含了10年的全分辨率、多极化的天气雷达数据,这些数据是从美国国家环境信息中心(NCEI)的风暴事件数据库中提取的。数据集分为三类样本:确认的龙卷风、非龙卷风的龙卷风警报和随机非龙卷风细胞,这样的分类有助于算法学习区分真正的龙卷风和其他类型的风暴。TorNet不仅支持龙卷风的检测分析,还包含了风暴的时序演变,为龙卷风预测研究提供了潜在的前兆信息。
The TorNet dataset, jointly constructed by the Massachusetts Institute of Technology and NVIDIA, aims to support the development of machine learning algorithms in the field of tornado detection and prediction. This dataset encompasses a decade's worth of full-resolution, multi-polarization weather radar data, extracted from the Storm Events Database of the National Centers for Environmental Information (NCEI). The dataset is categorized into three types of samples: confirmed tornadoes, non-tornadic tornado warnings, and random non-tornadic cells, facilitating the algorithm's ability to distinguish genuine tornadoes from other types of storms. TorNet not only supports tornado detection analysis but also includes the temporal evolution of storms, providing potential precursor information for tornado prediction research.
提供机构:
麻省理工学院、英伟达
创建时间:
2024-01-26
原始信息汇总
数据集概述
数据集名称
- TorNet
数据集描述
- 用于龙卷风检测和预测的基准数据集,使用全分辨率极化天气雷达数据。
数据集下载
- 数据集分为10个文件,每个文件包含1年的数据,总计11个文件(包括一个目录CSV文件)。
- 数据集大小从3GB到19GB不等。
- 下载链接通过Zenodo提供,每个年份的数据集都有对应的下载链接。
数据集结构
- 下载并解压后,数据集应包含
catalog.csv和10个名为tornet_YYYY.tar.gz的文件。 - 解压后的目录应包含
catalog.csv以及train/和test/子目录,其中包含每年的.nc文件。
数据集使用
- 提供了Python环境设置指南,包括基本要求和特定库的安装说明。
- 提供了数据加载和可视化的Jupyter笔记本示例。
- 提供了训练和评估CNN基准模型的脚本和配置文件。
数据集评估
- 提供了预训练的CNN基准模型及其权重,用于评估测试集。
- 评估脚本可以计算并打印测试集上的各种指标。
搜集汇总
数据集介绍

构建方式
TorNet数据集的构建基于全分辨率极化天气雷达数据,涵盖了2013年至2022年的龙卷风事件。数据集被细分为10个文件,每个文件包含一年的数据,并附有一个目录CSV文件用于数据索引。数据集的构建过程中,特别关注了标签的准确性,版本1.1修复了早期版本中的部分错误标签,并提供了龙卷风开始和结束时间的元数据。
使用方法
使用TorNet数据集,用户首先需下载并解压数据文件,设置环境变量TORNET_ROOT指向数据集路径。通过运行`notebooks/DataLoaders.ipynb`笔记本,用户可以了解数据加载和可视化的基本操作。对于模型训练,用户可以选择合适的深度学习框架,并通过设置KERAS_BACKEND环境变量来切换后端。训练和评估模型的脚本分别位于`scripts/tornado_detection/train_tornado_keras.py`和`scripts/tornado_detection/test_tornado_keras.py`。
背景与挑战
背景概述
在气象学领域,龙卷风的检测与预测一直是极具挑战性的研究课题。为了推动这一领域的发展,TorNet数据集应运而生,由麻省理工学院(MIT)于2024年创建。该数据集的核心研究问题是如何利用全分辨率极化天气雷达数据进行龙卷风的有效检测与预测。TorNet不仅提供了丰富的雷达数据,还包含了详细的元数据,如龙卷风的起止时间,为研究人员提供了宝贵的资源。该数据集的发布极大地促进了气象学与机器学习交叉领域的研究,为开发更精确的龙卷风预测模型奠定了基础。
当前挑战
尽管TorNet数据集在龙卷风检测与预测领域具有重要意义,但其构建与应用过程中仍面临诸多挑战。首先,数据集的规模庞大,涵盖了多个年份的数据,这要求高效的存储与处理技术。其次,数据标注的准确性是关键,任何错误标注都可能影响模型的训练效果。此外,由于龙卷风事件的稀有性,数据集中的正样本相对较少,导致模型在实际应用中可能面临样本不平衡的问题。最后,跨平台兼容性也是一个挑战,数据集需要支持多种深度学习框架,如TensorFlow、PyTorch和JAX,以满足不同研究者的需求。
常用场景
经典使用场景
在气象学领域,TorNet数据集的经典使用场景主要集中在龙卷风检测与预测。通过利用全分辨率极化天气雷达数据,研究人员能够构建和训练深度学习模型,以识别和预测龙卷风的发生。这种数据集的应用不仅限于学术研究,还广泛应用于气象预报系统,以提高对极端天气事件的预警能力。
解决学术问题
TorNet数据集解决了气象学中龙卷风检测与预测的关键学术问题。传统方法依赖于人工分析和有限的数据源,难以实现高精度的预测。该数据集通过提供高质量、全分辨率的雷达数据,使得机器学习模型能够更准确地识别龙卷风的特征,从而提高预测的准确性和时效性。这一进展对于提升气象灾害预警系统的效能具有重要意义。
实际应用
在实际应用中,TorNet数据集被广泛用于开发和优化龙卷风预警系统。通过结合实时雷达数据和预训练的深度学习模型,气象部门能够更早、更准确地发布龙卷风预警,从而有效减少灾害损失。此外,该数据集还支持在不同地理区域和气候条件下进行模型验证和调整,确保预警系统的广泛适用性和可靠性。
数据集最近研究
最新研究方向
在龙卷风检测与预测领域,TorNet数据集的最新研究方向主要集中在利用全分辨率极化天气雷达数据进行精确的龙卷风识别与预警。随着数据集版本的更新,研究者们不仅修正了早期版本中的标签错误,还引入了龙卷风开始和结束时间的元数据,这为模型的训练和评估提供了更为精确的数据支持。此外,TorNet数据集的兼容性扩展至多种深度学习框架,如TensorFlow、PyTorch和JAX,使得研究者能够灵活选择适合的计算环境,从而推动了跨平台和跨框架的龙卷风检测模型研究。预训练模型的发布和可视化工具的提供,进一步加速了该领域研究的进展,为龙卷风预测的实时性和准确性带来了新的可能性。
以上内容由遇见数据集搜集并总结生成



