five

TorNet|龙卷风检测数据集|机器学习数据集

收藏
arXiv2024-01-27 更新2024-06-21 收录
龙卷风检测
机器学习
下载链接:
https://github.com/mitll/tornet
下载链接
链接失效反馈
资源简介:
TorNet数据集是由麻省理工学院林肯实验室创建的,用于支持机器学习算法在龙卷风检测和预测中的开发。该数据集包含了从2013年至2022年的10年风暴事件中采样的全分辨率极化天气雷达数据,总计203,133个样本。数据集设计用于包含多种对流模式和风暴类型,包括活跃的已确认龙卷风风暴、龙卷风前风暴演变、非龙卷风旋转风暴、非旋转严重风暴和非严重风暴。创建此数据集的目的是为了支持两种主要研究工作:1) 通过提供标记的龙卷风、非龙卷风旋转和非旋转风暴示例,支持龙卷风检测的分析和算法开发;2) 通过提供旋转强度连续变化的风暴的时间演变,支持龙卷风预测,提供可能的龙卷风生成前兆。数据集及其源代码和模型权重已公开可用,旨在加速研究和发展,并允许全球的研究团队在同一基准上比较他们的模型和结果。
提供机构:
麻省理工学院林肯实验室
创建时间:
2024-01-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
TorNet数据集通过整合10年间的全分辨率极化天气雷达数据构建而成,涵盖了从2013年8月至2022年8月的风暴事件。该数据集包含了多种类型的风暴模式和风暴类型,包括已确认的龙卷风、龙卷风前期的风暴演变、非龙卷风的旋转风暴、非旋转的强风暴以及非强风暴。数据集的构建过程包括从国家环境信息中心(NCEI)的风暴事件数据库中选择样本,并通过多种预处理步骤对数据进行清洗、对齐和降采样,以确保数据的准确性和可用性。最终,TorNet数据集包含了203,133个样本,其中约6.8%为已确认的龙卷风样本。
特点
TorNet数据集的主要特点在于其高分辨率的极化雷达数据,能够捕捉到龙卷风及其前兆的详细特征。数据集包含了多种类别,如已确认的龙卷风、非龙卷风的龙卷风预警事件以及随机选择的非龙卷风事件,确保了数据集在分类和预测任务中的实用性。此外,数据集的标签设计考虑了类别不平衡问题,确保了算法在处理罕见事件时的鲁棒性。TorNet还提供了丰富的元数据,包括风暴事件的ID、EF等级、雷达站点信息等,便于研究人员进行深入分析。
使用方法
TorNet数据集适用于多种机器学习任务,包括龙卷风检测、时间序列预测、可解释性AI(XAI)方法、自动特征提取以及无监督学习等。研究人员可以使用该数据集训练和验证龙卷风检测算法,尤其是深度学习模型,如卷积神经网络(CNN),这些模型能够直接处理原始雷达图像,而无需手动特征提取。数据集的公开性和易用性使得研究人员能够快速上手,并通过基准测试评估其模型的性能。此外,TorNet还提供了源代码和预训练的CNN模型权重,进一步简化了模型的开发和应用过程。
背景与挑战
背景概述
TorNet数据集是由麻省理工学院林肯实验室和NVIDIA公司合作开发的一个用于龙卷风检测和预测的基准数据集。该数据集基于10年间的全分辨率极化天气雷达数据,旨在支持机器学习算法在龙卷风检测和预测中的应用。TorNet数据集的核心研究问题是如何通过机器学习技术,特别是深度学习,从雷达数据中自动检测龙卷风的特征,从而提高预警的准确性和及时性。该数据集的发布不仅为气象学领域的研究提供了宝贵的资源,还为机器学习算法在该领域的应用提供了基准,推动了龙卷风检测技术的进步。
当前挑战
TorNet数据集在构建过程中面临了多个挑战。首先,龙卷风事件极为罕见,导致数据集中正负样本极度不平衡,这对算法的训练和性能评估提出了挑战。其次,雷达数据的复杂性和高维度特性使得特征提取和模型训练变得复杂,尤其是在不依赖手动特征工程的情况下。此外,数据集的构建需要从大量的雷达数据中筛选出有代表性的样本,并进行精确的标注,这一过程耗时且容易出错。最后,如何确保数据集的公平性和可扩展性,使其能够适应未来算法的发展,也是该数据集面临的重要挑战。
常用场景
经典使用场景
TorNet数据集最经典的使用场景是用于龙卷风检测和预测的机器学习算法开发。该数据集包含了10年间的全分辨率极化天气雷达数据,涵盖了多种风暴类型,包括已确认的龙卷风、非龙卷风旋转风暴以及非旋转的严重风暴。通过这些数据,研究人员可以训练和验证各种机器学习模型,特别是深度学习模型,以自动检测雷达图像中的龙卷风特征,而无需手动提取特征。
解决学术问题
TorNet数据集解决了龙卷风检测中的几个关键学术问题。首先,它解决了数据稀缺性问题,因为龙卷风事件在所有雷达观测中极为罕见。其次,它通过提供全分辨率、极化雷达数据,帮助研究人员开发更鲁棒和高效的算法,以减少传统算法中的高误报率。此外,TorNet还为深度学习模型提供了一个基准,展示了如何在不依赖手动特征工程的情况下,通过自动特征提取提高检测性能。
衍生相关工作
TorNet数据集的发布催生了一系列相关的经典工作。首先,基于该数据集,研究人员开发了多种机器学习模型,特别是深度学习模型,用于龙卷风检测。这些模型展示了如何通过自动特征提取提高检测性能。其次,TorNet还激发了对多模态数据融合的研究,例如将雷达数据与卫星图像、闪电数据等结合,以提高龙卷风预测的准确性。此外,该数据集还推动了气象学领域中基准数据集的标准化,促进了不同研究团队之间的公平比较和合作。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录