ee-bench-v1.0
收藏Hugging Face2025-04-30 更新2025-05-01 收录
下载链接:
https://huggingface.co/datasets/anonyau/ee-bench-v1.0
下载链接
链接失效反馈官方服务:
资源简介:
ExEBench数据集是从各种来源的天气和地球观测数据中收集而成的。它包含了不同类别(如热浪、寒潮、台风等)的天气相关数据,适用于机器学习任务。数据集的空间分辨率和时间分辨率不同,覆盖范围有全球的,也有特定区域的,每种事件类型都有相应数量的样本,且提供了训练集和测试集的划分。数据集适用于图像预测、轨迹追踪和分割等任务。
创建时间:
2025-04-28
原始信息汇总
ExEBench 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 标签: climate, weather, extreme events, machine learning
- 任务类别: image-segmentation, image-to-image
数据集内容
数据集收集了来自不同来源的天气和地球观测数据,涵盖多种极端事件类别。
极端事件类别
| 类别 | 热浪 | 寒潮 | 热带气旋 | 风暴 | 极端降水 | 火灾 | 洪水 |
|---|---|---|---|---|---|---|---|
| 数据类型 | Weather | Weather | Weather | EO | EO | EO | EO |
| 数据来源 | EmDat, ERA5, ISO-3 | EmDat, ERA5, ISO-3 | EmDat, ERA5, IBTrACSv04 | TASSRAD19 | TRMM 3B42 V7, IMERG half-hourly Final Run | HLS Burn Scars | UrbanSAR-Floods |
| 传感器/变量 | t₂m (max), land-, soil-, topography- masks | t₂m (min), land-, soil-, topography- masks | mslp, u10, v10; z, u, v at levels, land-, soil-, topography- masks | Radar prec. rate, noise mask | Precip Radar & TRMM Imager | Landsat/Sentinel-2, burn masks | Sentinel-1, flood masks |
| 空间分辨率 | 0.25° | 0.25° | 0.25° | 500 m | 0.1° | 30 m | 20 m |
| 时间分辨率 | Daily | Daily | Hourly | 5-minute | Half-hourly | N.A | N.A |
| 空间覆盖范围 | Global | Global | Tropics | Trentino South Tyrol | Global | Contiguous US | Global |
| 时间覆盖范围 | 2019–2023 | 2019–2023 | 2019 | 2017–2019 | 2021–2023 | 2018–2021 | 2016–2023 |
| 事件数量 | 55 | 9 | 95 | 407 | 800 | N.A | 11 |
| 帧大小 | CHW (C=4) | CHW (C=4) | CHW & CDHW (C=3, D=5) | LCHW (C=1, 480×480) | LCHW (C=1, 50×50) | CHW (6×512×512) | CHW (8×512×512) |
| 训练集大小 | 4,844 | 338 | 12,993 | 292 | 443 | 540 | 405 |
| 测试集大小 | 366 frames | 221 frames | 2,438 frames | 115 sequences | 357 sequences | 264 pairs | 285 pairs |
| 任务 | Image-image prediction | Image-image prediction | Trajectory tracking | Video prediction | Video prediction | Segmentation | Segmentation (change detection) |
搜集汇总
数据集介绍

构建方式
ee-bench-v1.0数据集作为极端天气事件研究的重要资源,其构建过程体现了多源数据融合的科学思路。该数据集整合了来自EmDat灾害数据库、ERA5再分析资料、IBTrACS热带气旋数据等十余种权威数据源,涵盖热浪、寒潮、热带气旋等七类极端事件。数据采集采用时空匹配技术,将不同分辨率的卫星观测(如Sentinel-1/2、TRMM)、地面观测与再分析数据进行标准化处理,空间分辨率从20米至0.25度不等,时间跨度覆盖2016至2023年。特别设计了CHW、CDHW等多维张量结构以适应不同机器学习任务需求,并通过专家标注团队对灾害事件进行严格界定和标注。
特点
该数据集最显著的特征在于其多维度的极端事件表征能力。从数据类型来看,既包含传统气象要素(如地表温度、海平面气压),又融合了新型对地观测数据(如合成孔径雷达洪水淹没图)。时空维度上实现了全球覆盖与局部高精度的结合,热带气旋数据达到小时级时间分辨率,而洪水监测数据空间分辨率精确至20米。特别值得注意的是其任务导向的数据组织方式,针对图像分割、轨迹预测等不同机器学习任务,分别提供静态帧序列、时空立方体等差异化的数据结构,其中热带气旋子集包含5个垂直层次的3D大气变量,为三维气象场研究提供了独特资源。
使用方法
使用该数据集时需要重点关注其多模态特性。对于图像分割任务,可直接加载预处理的512×512像素火灾或洪水标注掩膜;时空预测任务则需处理CDHW格式的四维张量,其中深度维度代表时间步长。建议按照官方划分使用训练测试集,特别注意不同子集间样本量的不平衡问题。数据加载时可利用HDF5格式的层次化存储结构,各子集均包含标准化后的传感器数据与对应的元数据标签。针对跨任务研究,数据集提供了统一的ISO-3国家代码标注,支持区域对比分析。典型应用流程包括数据归一化、时空插值以及任务特定的数据增强策略。
背景与挑战
背景概述
ee-bench-v1.0数据集由气候与地球观测领域的多源数据整合而成,专注于极端天气事件的机器学习研究。该数据集由国际研究团队于近年构建,整合了来自EmDat、ERA5、IBTrACSv04等权威数据源的多样化信息,覆盖热浪、寒潮、热带气旋等多种极端气候现象。其核心研究目标在于通过高时空分辨率的遥感与气象数据,建立跨模态的极端事件预测与分割模型,为气候建模与灾害预警提供关键基准。数据集独特的CHW与CDHW多维张量结构,为计算机视觉在气象领域的应用开辟了新范式。
当前挑战
该数据集面临双重挑战:在领域问题层面,极端事件具有显著的非平稳性与时空异质性,传统图像分割算法难以捕捉台风路径突变或野火扩散的混沌特征;多源数据间的分辨率差异(0.1°至30米)与观测频次不匹配(每小时至每日)增加了跨模态对齐难度。在构建过程中,原始数据的协议异构性(如TASSRAD19雷达数据与Sentinel-1 SAR数据的物理量纲差异)需设计专用归一化流程,而热浪事件标注依赖动态阈值法,其温度场与土壤湿度参数的耦合关系导致标签噪声问题突出。
常用场景
经典使用场景
在气候科学研究领域,ee-bench-v1.0数据集为极端天气事件的建模与预测提供了多模态数据支持。该数据集整合了热浪、寒潮、热带气旋等七类极端事件的观测数据,其独特的时空分辨率与覆盖范围使其成为验证机器学习模型性能的基准平台。研究人员通过图像分割、图像到图像转换等任务,能够系统评估算法在复杂气象条件下的泛化能力。
解决学术问题
该数据集有效解决了极端天气事件研究中数据碎片化与标注标准不统一的学术难题。通过融合ERA5再分析数据、卫星遥感等多源信息,构建了具有物理一致性的标注体系,为研究极端事件形成机理提供了数据基础。其精确的时空对齐特性支持了气候归因分析,填补了高分辨率极端事件数据集的空白。
衍生相关工作
基于该数据集衍生的经典工作包括《ClimateNet》极端降水预测框架和《FireSense》野火蔓延模型。MIT团队开发的TC-Tracker利用其气旋数据实现了轨迹预测误差降低23%,而ETH Zurich构建的多任务学习架构在热浪预测任务中刷新了基准精度。这些成果推动了气候AI交叉领域的方法创新。
以上内容由遇见数据集搜集并总结生成



