five

TorNet

收藏
arXiv2024-01-27 更新2024-06-21 收录
下载链接:
https://github.com/mitll/tornet
下载链接
链接失效反馈
官方服务:
资源简介:
TorNet数据集是由麻省理工学院林肯实验室创建的,用于支持机器学习算法在龙卷风检测和预测中的开发。该数据集包含了从2013年至2022年的10年风暴事件中采样的全分辨率极化天气雷达数据,总计203,133个样本。数据集设计用于包含多种对流模式和风暴类型,包括活跃的已确认龙卷风风暴、龙卷风前风暴演变、非龙卷风旋转风暴、非旋转严重风暴和非严重风暴。创建此数据集的目的是为了支持两种主要研究工作:1) 通过提供标记的龙卷风、非龙卷风旋转和非旋转风暴示例,支持龙卷风检测的分析和算法开发;2) 通过提供旋转强度连续变化的风暴的时间演变,支持龙卷风预测,提供可能的龙卷风生成前兆。数据集及其源代码和模型权重已公开可用,旨在加速研究和发展,并允许全球的研究团队在同一基准上比较他们的模型和结果。

The TorNet dataset was created by the MIT Lincoln Laboratory to support the development of machine learning algorithms for tornado detection and forecasting. This dataset comprises full-resolution polarimetric weather radar data sampled from 10 years of storm events spanning 2013 to 2022, with a total of 203,133 samples. The dataset is designed to encompass a diverse range of convective patterns and storm types, including active confirmed tornado-producing storms, pre-tornadic storm evolution, non-tornadic rotating storms, non-rotating severe storms, and non-severe storms. The dataset was developed to support two primary research efforts: 1) Supporting analysis and algorithm development for tornado detection by providing labeled examples of tornadic, non-tornadic rotating, and non-rotating storms; 2) Supporting tornado forecasting by offering temporal evolutions of storms with continuously varying rotation intensities, which serve as potential precursors to tornado formation. The dataset, along with its source code and model weights, has been made publicly available to accelerate research and development, and to enable global research teams to compare their models and results on a unified benchmark.
提供机构:
麻省理工学院林肯实验室
创建时间:
2024-01-27
搜集汇总
数据集介绍
main_image_url
构建方式
TorNet数据集通过整合10年间的全分辨率极化天气雷达数据构建而成,涵盖了从2013年8月至2022年8月的风暴事件。该数据集包含了多种类型的风暴模式和风暴类型,包括已确认的龙卷风、龙卷风前期的风暴演变、非龙卷风的旋转风暴、非旋转的强风暴以及非强风暴。数据集的构建过程包括从国家环境信息中心(NCEI)的风暴事件数据库中选择样本,并通过多种预处理步骤对数据进行清洗、对齐和降采样,以确保数据的准确性和可用性。最终,TorNet数据集包含了203,133个样本,其中约6.8%为已确认的龙卷风样本。
特点
TorNet数据集的主要特点在于其高分辨率的极化雷达数据,能够捕捉到龙卷风及其前兆的详细特征。数据集包含了多种类别,如已确认的龙卷风、非龙卷风的龙卷风预警事件以及随机选择的非龙卷风事件,确保了数据集在分类和预测任务中的实用性。此外,数据集的标签设计考虑了类别不平衡问题,确保了算法在处理罕见事件时的鲁棒性。TorNet还提供了丰富的元数据,包括风暴事件的ID、EF等级、雷达站点信息等,便于研究人员进行深入分析。
使用方法
TorNet数据集适用于多种机器学习任务,包括龙卷风检测、时间序列预测、可解释性AI(XAI)方法、自动特征提取以及无监督学习等。研究人员可以使用该数据集训练和验证龙卷风检测算法,尤其是深度学习模型,如卷积神经网络(CNN),这些模型能够直接处理原始雷达图像,而无需手动特征提取。数据集的公开性和易用性使得研究人员能够快速上手,并通过基准测试评估其模型的性能。此外,TorNet还提供了源代码和预训练的CNN模型权重,进一步简化了模型的开发和应用过程。
背景与挑战
背景概述
TorNet数据集是由麻省理工学院林肯实验室和NVIDIA公司合作开发的一个用于龙卷风检测和预测的基准数据集。该数据集基于10年间的全分辨率极化天气雷达数据,旨在支持机器学习算法在龙卷风检测和预测中的应用。TorNet数据集的核心研究问题是如何通过机器学习技术,特别是深度学习,从雷达数据中自动检测龙卷风的特征,从而提高预警的准确性和及时性。该数据集的发布不仅为气象学领域的研究提供了宝贵的资源,还为机器学习算法在该领域的应用提供了基准,推动了龙卷风检测技术的进步。
当前挑战
TorNet数据集在构建过程中面临了多个挑战。首先,龙卷风事件极为罕见,导致数据集中正负样本极度不平衡,这对算法的训练和性能评估提出了挑战。其次,雷达数据的复杂性和高维度特性使得特征提取和模型训练变得复杂,尤其是在不依赖手动特征工程的情况下。此外,数据集的构建需要从大量的雷达数据中筛选出有代表性的样本,并进行精确的标注,这一过程耗时且容易出错。最后,如何确保数据集的公平性和可扩展性,使其能够适应未来算法的发展,也是该数据集面临的重要挑战。
常用场景
经典使用场景
TorNet数据集最经典的使用场景是用于龙卷风检测和预测的机器学习算法开发。该数据集包含了10年间的全分辨率极化天气雷达数据,涵盖了多种风暴类型,包括已确认的龙卷风、非龙卷风旋转风暴以及非旋转的严重风暴。通过这些数据,研究人员可以训练和验证各种机器学习模型,特别是深度学习模型,以自动检测雷达图像中的龙卷风特征,而无需手动提取特征。
解决学术问题
TorNet数据集解决了龙卷风检测中的几个关键学术问题。首先,它解决了数据稀缺性问题,因为龙卷风事件在所有雷达观测中极为罕见。其次,它通过提供全分辨率、极化雷达数据,帮助研究人员开发更鲁棒和高效的算法,以减少传统算法中的高误报率。此外,TorNet还为深度学习模型提供了一个基准,展示了如何在不依赖手动特征工程的情况下,通过自动特征提取提高检测性能。
衍生相关工作
TorNet数据集的发布催生了一系列相关的经典工作。首先,基于该数据集,研究人员开发了多种机器学习模型,特别是深度学习模型,用于龙卷风检测。这些模型展示了如何通过自动特征提取提高检测性能。其次,TorNet还激发了对多模态数据融合的研究,例如将雷达数据与卫星图像、闪电数据等结合,以提高龙卷风预测的准确性。此外,该数据集还推动了气象学领域中基准数据集的标准化,促进了不同研究团队之间的公平比较和合作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作