TorNet - 用于龙卷风检测与预测的基准数据集|龙卷风检测数据集|机器学习数据集

github2024-06-10 收录

龙卷风检测

机器学习

下载链接：

https://github.com/mit-ll/tornet

下载链接

链接失效反馈

资源简介：

TorNet数据集由麻省理工学院联合英伟达构建，旨在支持机器学习算法在龙卷风检测与预测领域的开发。该数据集包含了10年的全分辨率、多极化的天气雷达数据，这些数据是从美国国家环境信息中心（NCEI）的风暴事件数据库中提取的。数据集分为三类样本：确认的龙卷风、非龙卷风的龙卷风警报和随机非龙卷风细胞，这样的分类有助于算法学习区分真正的龙卷风和其他类型的风暴。TorNet不仅支持龙卷风的检测分析，还包含了风暴的时序演变，为龙卷风预测研究提供了潜在的前兆信息。

The TorNet dataset, jointly constructed by the Massachusetts Institute of Technology and NVIDIA, aims to support the development of machine learning algorithms in the field of tornado detection and prediction. This dataset encompasses a decade's worth of full-resolution, multi-polarization weather radar data, extracted from the Storm Events Database of the National Centers for Environmental Information (NCEI). The dataset is categorized into three types of samples: confirmed tornadoes, non-tornadic tornado warnings, and random non-tornadic cells, facilitating the algorithm's ability to distinguish genuine tornadoes from other types of storms. TorNet not only supports tornado detection analysis but also includes the temporal evolution of storms, providing potential precursor information for tornado prediction research.

提供机构：

麻省理工学院、英伟达

创建时间：

2024-01-26

原始信息汇总

数据集概述

数据集名称

TorNet

数据集描述

用于龙卷风检测和预测的基准数据集，使用全分辨率极化天气雷达数据。

数据集下载

数据集分为10个文件，每个文件包含1年的数据，总计11个文件（包括一个目录CSV文件）。
数据集大小从3GB到19GB不等。
下载链接通过Zenodo提供，每个年份的数据集都有对应的下载链接。

数据集结构

下载并解压后，数据集应包含catalog.csv和10个名为tornet_YYYY.tar.gz的文件。
解压后的目录应包含catalog.csv以及train/和test/子目录，其中包含每年的.nc文件。

数据集使用

提供了Python环境设置指南，包括基本要求和特定库的安装说明。
提供了数据加载和可视化的Jupyter笔记本示例。
提供了训练和评估CNN基准模型的脚本和配置文件。

数据集评估

提供了预训练的CNN基准模型及其权重，用于评估测试集。
评估脚本可以计算并打印测试集上的各种指标。

AI搜集汇总

数据集介绍

构建方式

TorNet数据集的构建基于全分辨率极化天气雷达数据，涵盖了2013年至2022年的龙卷风事件。数据集被细分为10个文件，每个文件包含一年的数据，并附有一个目录CSV文件用于数据索引。数据集的构建过程中，特别关注了标签的准确性，版本1.1修复了早期版本中的部分错误标签，并提供了龙卷风开始和结束时间的元数据。

使用方法

使用TorNet数据集，用户首先需下载并解压数据文件，设置环境变量TORNET_ROOT指向数据集路径。通过运行`notebooks/DataLoaders.ipynb`笔记本，用户可以了解数据加载和可视化的基本操作。对于模型训练，用户可以选择合适的深度学习框架，并通过设置KERAS_BACKEND环境变量来切换后端。训练和评估模型的脚本分别位于`scripts/tornado_detection/train_tornado_keras.py`和`scripts/tornado_detection/test_tornado_keras.py`。

背景与挑战

背景概述

在气象学领域，龙卷风的检测与预测一直是极具挑战性的研究课题。为了推动这一领域的发展，TorNet数据集应运而生，由麻省理工学院（MIT）于2024年创建。该数据集的核心研究问题是如何利用全分辨率极化天气雷达数据进行龙卷风的有效检测与预测。TorNet不仅提供了丰富的雷达数据，还包含了详细的元数据，如龙卷风的起止时间，为研究人员提供了宝贵的资源。该数据集的发布极大地促进了气象学与机器学习交叉领域的研究，为开发更精确的龙卷风预测模型奠定了基础。

当前挑战

尽管TorNet数据集在龙卷风检测与预测领域具有重要意义，但其构建与应用过程中仍面临诸多挑战。首先，数据集的规模庞大，涵盖了多个年份的数据，这要求高效的存储与处理技术。其次，数据标注的准确性是关键，任何错误标注都可能影响模型的训练效果。此外，由于龙卷风事件的稀有性，数据集中的正样本相对较少，导致模型在实际应用中可能面临样本不平衡的问题。最后，跨平台兼容性也是一个挑战，数据集需要支持多种深度学习框架，如TensorFlow、PyTorch和JAX，以满足不同研究者的需求。

常用场景

经典使用场景

在气象学领域，TorNet数据集的经典使用场景主要集中在龙卷风检测与预测。通过利用全分辨率极化天气雷达数据，研究人员能够构建和训练深度学习模型，以识别和预测龙卷风的发生。这种数据集的应用不仅限于学术研究，还广泛应用于气象预报系统，以提高对极端天气事件的预警能力。

解决学术问题

TorNet数据集解决了气象学中龙卷风检测与预测的关键学术问题。传统方法依赖于人工分析和有限的数据源，难以实现高精度的预测。该数据集通过提供高质量、全分辨率的雷达数据，使得机器学习模型能够更准确地识别龙卷风的特征，从而提高预测的准确性和时效性。这一进展对于提升气象灾害预警系统的效能具有重要意义。

实际应用

在实际应用中，TorNet数据集被广泛用于开发和优化龙卷风预警系统。通过结合实时雷达数据和预训练的深度学习模型，气象部门能够更早、更准确地发布龙卷风预警，从而有效减少灾害损失。此外，该数据集还支持在不同地理区域和气候条件下进行模型验证和调整，确保预警系统的广泛适用性和可靠性。

数据集最近研究

最新研究方向

在龙卷风检测与预测领域，TorNet数据集的最新研究方向主要集中在利用全分辨率极化天气雷达数据进行精确的龙卷风识别与预警。随着数据集版本的更新，研究者们不仅修正了早期版本中的标签错误，还引入了龙卷风开始和结束时间的元数据，这为模型的训练和评估提供了更为精确的数据支持。此外，TorNet数据集的兼容性扩展至多种深度学习框架，如TensorFlow、PyTorch和JAX，使得研究者能够灵活选择适合的计算环境，从而推动了跨平台和跨框架的龙卷风检测模型研究。预训练模型的发布和可视化工具的提供，进一步加速了该领域研究的进展，为龙卷风预测的实时性和准确性带来了新的可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录