ExEBench

Name: ExEBench
Creator: 慕尼黑工业大学（TUM）和慕尼黑机器学习中心（MCML）
Published: 2025-05-13 21:02:04
License: 暂无描述

arXiv2025-05-13 更新2025-05-15 收录

下载链接：

https://github.com/zhaoshan2/EarthExtreme-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ExEBench是一个关于极端地球事件的基准数据集，它涵盖了洪水、野火、风暴、热带气旋、极端降水、热浪和寒潮七个类别，具有全球覆盖范围、不同的数据量和多样化的数据来源，包括不同的时空和光谱特征。数据集旨在评估基础模型在多种极端事件检测、监测和预测任务中的泛化能力，并促进新型机器学习方法的开发，以支持灾害管理。

ExEBench is a benchmark dataset focused on extreme Earth events, covering seven categories: floods, wildfires, storms, tropical cyclones, extreme precipitation, heatwaves, and cold waves. It boasts global coverage, variable data volumes, and diverse data sources with distinct spatiotemporal and spectral characteristics. This dataset is designed to evaluate the generalization capability of foundation models across multiple extreme event detection, monitoring and prediction tasks, and promote the development of novel machine learning methods to support disaster management.

提供机构：

慕尼黑工业大学（TUM）和慕尼黑机器学习中心（MCML）

创建时间：

2025-05-13

原始信息汇总

Extreme Earth Benchmark 数据集概述

数据集基本信息

名称: Extreme Earth Benchmark
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/zhaoshan/ee-bench_v1.0/tree/stable/data

数据集内容

主题: 极端地球事件（Extreme events）
数据类型: 未明确说明（需进一步确认）

数据获取与使用

下载方式:
- 使用脚本 earthextremebench/earthextremebench_download.py 下载数据集
数据加载与任务处理:
- 获取特定极端事件任务: ee_task = EETask(disaster="coldwave")
- 加载数据集: ee_task.get_loader()
- 模型训练与评估: ee_task.train_and_evaluate(seed=42, mode="fully_finetune")

搜集汇总

数据集介绍

构建方式

ExEBench数据集通过整合多源地球观测（EO）与气象数据，构建了涵盖洪水、野火、风暴等七类极端事件的全球性基准。数据采集结合了人类灾害记录（如EmDat数据库）与数据驱动阈值法，采用标准化流程处理ERA5再分析数据、Sentinel-1雷达影像等异构数据源。空间分辨率从30米至0.25度不等，时间跨度覆盖2010-2023年，并通过归一化与区域裁剪确保批次训练一致性。测试集严格按时间或地理独立性划分，所有数据均支持PyTorch框架直接加载。

特点

该数据集以多维异构性为核心特征：空间维度覆盖区域至全球尺度，时间分辨率从5分钟到日尺度不等，光谱特性涵盖可见光至微波波段。其独特价值在于极端事件的数据表征——通过对比22年TRMM降水阈值筛选极端降水事件，并融合IBTrACS热带气旋轨迹与ERA5多变量气象场。数据分布呈现显著偏移，极端值标准差较气候态降低约40%，且目标像素（如燃烧区）占比不足15%，凸显模型对长尾分布的适应挑战。

使用方法

ExEBench支持三类典型应用范式：1) 基础模型评估——通过冻结编码器微调解码器，测试跨模态泛化性（如从遥感影像迁移至气象预测）；2) 多任务学习——利用统一框架处理分类（火灾分割）、回归（温度预测）和时序预测（降水临近预报）；3) 极端事件关联分析——结合热带气旋与经济损失数据，研究灾害链式效应。用户可通过Hugging Face获取标准化数据切片，并参考提供的PyTorch Dataset类集成地理元数据（经纬度范围、时间戳等），配套评估指标包含nRMSE、CSI等12种领域适应性指标。

背景与挑战

背景概述

ExEBench数据集由慕尼黑工业大学（TUM）和慕尼黑机器学习中心（MCML）的研究团队于2025年提出，旨在评估基础模型在极端地球事件中的可靠性。该数据集涵盖洪水、野火、风暴、热带气旋、极端降水、热浪和寒潮等七类极端事件，具有全球覆盖、多源异构（遥感、气象再分析、雷达等）和多时空分辨率特性。其核心科学问题是解决传统物理模型和数据驱动方法在极端值预测中的偏差问题，填补了现有基准（如WeatherBench）在跨模态迁移评估和极端事件适应性测试方面的空白，对气候灾害管理、地球系统科学和跨领域基础模型发展具有重要推动作用。

当前挑战

ExEBench面临三重挑战：1) 领域问题层面，极端事件在训练数据中占比极低（如热浪仅占气候数据的0.3%），导致模型对长尾分布建模困难；2) 数据构建层面，需协调多源异构数据（如Sentinel-1 SAR与ERA5气象数据的时空对齐），并解决标注不平衡（火灾数据中燃烧区域占比不足12%）；3) 模型评估层面，需设计兼顾气象学意义（如Heidke-Skill-Score）与机器学习指标（如IoU）的跨模态评价体系，同时处理极端事件间的级联效应分析。

常用场景

经典使用场景

ExEBench数据集在极端地球事件的研究中扮演了关键角色，特别是在评估基础模型（FMs）在洪水、野火、风暴、热带气旋等七类极端事件中的表现。数据集通过整合地球观测（EO）和气象数据，为研究人员提供了一个多维度的评估平台，涵盖了不同的空间、时间和光谱特性。其经典使用场景包括极端事件的检测、监测和预测，为灾害管理提供了重要的数据支持。

解决学术问题

ExEBench解决了极端事件研究中数据稀缺和模型泛化能力不足的学术问题。通过提供全球覆盖的多样化极端事件数据，该数据集帮助研究人员评估基础模型在不同任务和领域中的表现，尤其是在数据分布偏移和极端值预测方面的挑战。此外，ExEBench还为分析极端事件之间的相互作用和级联效应提供了平台，推动了地球系统科学的发展。

衍生相关工作

ExEBench的发布催生了一系列相关研究工作，特别是在跨模态基础模型的开发和应用方面。例如，基于ExEBench的评估结果，研究人员提出了改进的时空动态模型和参数高效微调策略。此外，该数据集还启发了结合地理空间科学和气象学的统一模型研究，为极端事件的综合管理提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集