ExtremeWeather

arXiv2025-09-30 收录

下载链接：

https://github.com/eracah/hur-detect

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了极端天气事件中的观测地表温度数据，每个事件持续时间不超过20帧，这导致了数据可用性的限制。在此基础上，我们构建了来自每个事件的元测试任务，以便进行具有时空预测的元学习任务。

This dataset contains observed surface temperature data from extreme weather events. Each event has a duration of no more than 20 frames, which imposes limitations on data availability. On this basis, we constructed meta-testing tasks derived from each event to facilitate meta-learning tasks for spatiotemporal prediction.

搜集汇总

数据集介绍

构建方式

ExtremeWeather数据集源自CAM5全球大气模拟，覆盖1979至2005年共27年的气候输出，空间分辨率为25公里，时间分辨率为3小时，包含16个大气变量通道（如温度、气压、水汽等），每张图像尺寸为768×1152像素。数据集共包含78,840张多通道图像，其中每隔一张图像（每日4张）由TECA工具基于启发式规则生成标签，标注了热带气旋、温带气旋、热带低压和大气河流四类极端天气事件，共计39,420张带标签图像。为适应不同研究需求，数据集划分为小、中、大三种规模，分别对应2年、8年和22年的训练数据。

特点

该数据集具有显著的多模态高维特性，每帧图像包含16个物理变量通道，远超传统RGB视频数据，且气候模拟数据的统计特性与自然图像截然不同，无法直接迁移计算机视觉领域的预训练模型。标签存在不完整性，由于TECA启发式方法的局限，部分事件可能被漏标（如南半球大气河流），导致数据呈现部分标注和类别不平衡（热带低压和大气河流占比低）。此外，极端天气事件在时空上呈局部涌现模式，背景具有高度一致性，为半监督学习和时空特征建模提供了独特挑战。

使用方法

数据集提供了标准化的训练/测试划分，研究者可直接下载使用。推荐采用三维卷积编码器-解码器架构，将时间维度纳入卷积核以捕捉事件的动态演化。模型可将768×1152图像划分为12×18个64×64锚点框，通过瓶颈层回归边界框的位置、大小、置信度和类别概率。半监督学习可通过联合优化监督边界框损失与无监督重建损失实现，未标注数据仅用于重构训练以塑造特征表示。代码及数据下载链接已公开，支持多类事件检测与定位的基准实验。

背景与挑战

背景概述

极端天气事件的精准检测与定位是气候科学领域一项至关重要的研究课题，其成果直接服务于风险管理、政策制定以及对气候系统基本机制的深入理解。在此背景下，来自蒙特利尔大学MILA实验室、劳伦斯伯克利国家实验室及微软Maluuba等机构的研究人员Evan Racah、Christopher Beckham、Tegan Maharaj、Samira Ebrahimi Kahou、Prabhat与Christopher Pal，于2017年在NIPS会议上联合发布了ExtremeWeather数据集。该数据集源自CAM5气候模式对1979年至2005年间27年全球气候的高分辨率模拟，包含了78,840张16通道的768×1152像素图像，并提供了针对热带气旋、温带气旋、热带低压及大气河流四类极端天气事件的标注信息。其核心研究问题在于推动半监督深度学习框架在气候变化分析中的应用，为理解极端事件的空间-时间演化模式提供了标准化基准，对气候科学与机器学习交叉领域产生了深远影响。

当前挑战

ExtremeWeather数据集面临的核心挑战首先源于领域问题的复杂性：极端天气事件在气候模拟数据中呈现高度不平衡的分布，且不同类别事件的空间尺度差异悬殊，如热带低压的尺度远小于大气河流，这使得模型在精准定位与多类识别上面临严峻考验。此外，标注数据本身存在显著缺陷，由于依赖TECA启发式算法生成，标注结果可能包含大量假阴性，且对温带气旋等事件的检测标准在气候学界尚未达成共识，导致部分标注不完整或存在地理偏差。在构建过程中，研究人员还需应对气候数据独特的统计特性——16个通道的多元变量与自然图像迥异，无法直接迁移计算机视觉领域的预训练模型，同时海量数据（十TB级别）对计算效率与存储提出了极高要求，促使研究团队设计3D卷积自编码器架构以在有限标注下挖掘时空特征。

常用场景

经典使用场景

在气候科学领域，极端天气事件的自动检测与定位一直是富有挑战性的核心议题。ExtremeWeather数据集应运而生，为机器学习与气候研究的交叉领域提供了宝贵的基准资源。该数据集源自CAM5全球气候模拟的27年输出，包含768×1152像素、16通道的高分辨率时空图像，覆盖热带气旋、温带气旋、热带低气压和大气河流四类极端天气现象。其最经典的使用场景在于训练和评估半监督或全监督的深度卷积神经网络，以实现对复杂气候模式的多类别检测与空间定位。研究人员常采用三维卷积编码器-解码器架构，在时空维度上联合建模，从而在标注数据稀疏或不完整的情况下，依然能够有效捕捉极端事件的特征与演化规律。

实际应用

在实际应用层面，ExtremeWeather数据集为气候风险评估与政策制定提供了可量化的技术工具。气象机构可利用基于该数据集训练的模型，从海量模拟或再分析数据中快速定位极端天气事件的发生位置与强度，从而辅助生成高精度的灾害预警信息。例如，针对大气河流的自动识别可直接服务于北美西海岸的洪水风险管理，而热带气旋的时空追踪则有助于优化应急响应预案。此外，该数据集还支持迁移学习研究，使得在模拟数据上习得的特征能够迁移至卫星观测数据，提升对真实世界极端事件的监测能力。这种从模拟到现实的泛化潜力，使得ExtremeWeather成为连接气候建模与公共决策之间的重要桥梁。

衍生相关工作

ExtremeWeather数据集的发布催生了一系列具有影响力的衍生研究工作。在方法论层面，基于该数据集提出的三维卷积编码器-解码器架构及其单次边界框回归损失函数，启发了后续将半监督学习与目标检测相结合的诸多尝试。例如，后续工作借鉴了该架构中联合优化重建损失与检测损失的思路，将其推广至视频理解与医学影像分析领域。在气候科学内部，该数据集推动了深度学习与气候模式诊断的深度融合，出现了利用生成对抗网络模拟极端事件未来演变、以及通过特征可视化揭示不同大气变量对风暴生成贡献的研究。此外，该数据集还成为检验时空异常检测与分布偏移校正算法的标准基准，持续激励着机器学习社群投身于具有社会意义的数据挑战。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集