MPCFire

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/AnonymousData4NeurIPS/MPCFire

下载链接

链接失效反馈

官方服务：

资源简介：

FireMPC 是一个覆盖加拿大全境的野火风险预测基准数据集，涵盖2000年至2025年期间，空间分辨率为1公里，时间分辨率为每日。数据集整合了55个驱动因素，包括燃料、地形、人为活动和气象四大类。数据以四种不同的训练和测试样本构建策略（随机采样与FWI引导的硬负样本挖掘）进行预构建，存储在HDF5文件中，并附有JSON格式的样本索引和归一化统计信息。数据集适用于图像分类和时间序列预测任务，特别适合研究野火风险预测和硬负样本挖掘技术。数据覆盖加拿大所有15个陆地生态区，时间上分为训练集（2000-2019）、验证集（2020-2022）和测试集（2023-2025）。数据集采用MIT许可证发布。

创建时间：

2026-04-27

原始信息汇总

FireMPC 数据集概述

基本信息

数据集名称: FireMPC (Pan-Canadian Wildfire Forecasting Benchmark)
许可证: MIT License
任务类别: 图像分类、时间序列预测
语言: 英语
标签: wildfire, remote-sensing, earth-observation, canada, benchmark, hard-negative-mining
数据集规模: 100K < n < 1M

数据覆盖范围

地理覆盖: 加拿大全境（约10亿公顷），涵盖全部15个陆地生态区域
时间范围: 2000年1月1日至2025年12月31日（26年）
空间分辨率: 1 km
时间分辨率: 1天

数据立方体规格

包含55个驱动因子，分为四个类别：

燃料: MODIS地表反射率（波段1、2、3、7）、NDVI、EVI、LAI/FPAR
气象: ERA5-Land热力/湿度/风场、VPD、CFFDRS FWI六分量（FFMC、DMC、DC、ISI、BUI、FWI）、MODIS LST和亮温
地形: ASTER DEM、坡度、坡向（sin/cos）、TPI、TWI、山体阴影、水体密度
人类活动: MODIS土地覆盖、WorldPop人口密度、OpenStreetMap道路/输电线/建筑密度
标签: MODIS MCD14A1/MYD14A1活跃火检测（仅作监督目标，不作为输入通道）

数据集变体设计

数据集包含四个预构建的样本缓存，构成2x2消融网格，用于对比FWI引导硬负挖掘（FWI-HNM）与随机负采样策略：

训练策略测试策略	测试 = FWI-HNM	测试 = 随机采样
训练 = 随机采样	cache_A	cache_Y
训练 = FWI-HNM	cache_G	cache_H

FWI-HNM: 使用经过校准的CFFDRS六分量复合指数对每个非火灾候选进行评分，在中位数处划分池，并按等比例组合硬负样本（火天气匹配的非着火点）和代表性负样本（低危险基线）
随机采样: 从非火灾候选池中均匀抽取负样本

数据划分

训练集: 2000 - 2019年
验证集: 2020 - 2022年
测试集: 2023 - 2025年（涵盖创纪录的2023年火灾季节及更典型的2024、2025季节）
正负样本比例: 固定1:2

文件结构与格式

每个缓存目录包含三个文件：

文件	大小	描述
`windows_<hash>.h5`	~14 GB	预提取的10天输入窗口及标签（包含正负样本），HDF5格式
`samples_variant_<X>.json`	~4.4 MB	样本索引：训练/验证/测试划分、样本标识符和元数据
`norm_stats.npz`	~2 KB	逐通道均值和标准差，用于输入标准化（跳过火灾掩码通道和分类土地覆盖通道）

数据读取示例

python from huggingface_hub import snapshot_download

local_dir = snapshot_download( repo_id="AnonymousData4NeurIPS/MPCFire", repo_type="dataset", allow_patterns=["cache_G/*"], )

import h5py, json, numpy as np

cache = f"{local_dir}/cache_G" with open(f"{cache}/samples_variant_G.json") as f: samples = json.load(f) norm = np.load(f"{cache}/norm_stats.npz") h5 = h5py.File(next(p for p in import(os).listdir(cache) if p.endswith(.h5)), "r")

搜集汇总

数据集介绍

构建方式

MPCFire数据集构建了覆盖加拿大全境十五个陆地生态区、约十亿公顷土地的火险预测基准。其核心数据立方体整合了55个驱动因子，涵盖燃料、地形、人为活动和气象四大类别，时间跨度为2000至2025年，空间分辨率为1公里每日。数据集设计了四种样本缓存变体，通过2x2消融网格系统性地解耦训练与评估阶段的负采样策略：包括基于FWI引导的难例挖掘（FWI-HNM）与随机均匀采样。每个缓存包含预提取的10天输入窗口及标签，并以HDF5格式与样本索引JSON文件存储，确保数据高效读取。

特点

该数据集的核心特色在于其精巧的负采样策略设计和时空覆盖的全面性。通过FWI-HNM方法，数据集能筛选出与火险气象条件匹配但未发生火灾的硬负样本，显著提升模型对决策边界的辨识能力。四组缓存变体（cache_A/Y/G/H）构成完整消融实验框架，允许研究者独立评估训练与测试中负样本分布的影响。此外，数据集采用时间留出法划分训练（2000-2019）、验证（2020-2022）和测试（2023-2025）集，特别包含创纪录的2023年火灾季，增强了模型的鲁棒性评估能力。所有类别均保持1:2的正负样本比例，有效应对极端类别不平衡问题。

使用方法

用户可通过huggingface_hub库便捷下载数据，使用snapshot_download函数指定缓存变体（如cache_G）即可获取对应样本文件。数据加载流程包括：首先解析samples_variant_<X>.json文件获取样本索引与划分信息；随后通过h5py库读取windows_<hash>.h5中的时序窗口与标签；最后利用norm_stats.npz进行通道标准化处理（排除火掩膜与土地覆盖类别通道）。建议研究者根据消融实验需求选择合适的缓存组合：生产环境可采用cache_A（训练随机/测试FWI-HNM）或cache_G（训练与测试均采用FWI-HNM），而验证FWI-HNM独立效果时推荐cache_Y与cache_H的交叉对比。

背景与挑战

背景概述

MPCFire数据集由匿名研究团队于2023年构建，旨在推动野火预测领域的基准测试发展。该数据集覆盖加拿大全境约十亿公顷的十五个陆地生态区，整合了燃料、地形、人为活动和气象四大类共55个驱动因子，以1公里空间分辨率和日尺度时间分辨率提供2000年至2025年的连续观测数据。其核心研究问题在于如何通过引入火险天气指数导向的困难负样本挖掘策略，提升野火风险预测模型在极端事件（如2023年创纪录火灾季）中的泛化能力。该数据集为遥感与机器学习交叉领域提供了标准化的评估框架，显著促进了长期时序预测与不平衡样本学习任务的方法创新。

当前挑战

MPCFire数据集面临的核心挑战包括：领域问题层面，野火预测本质上是极度不平衡的二分类问题，在广袤且时空异质的地理环境中，非火灾样本远多于火灾样本，且极低火灾发生率的背景区域易导致模型偏向预测无火类别，如何从冗余的负样本中有效学习火灾模式是主要难点。构建过程中，负样本的采样策略需平衡代表性与难度——简单随机采样无法剔除低信息样本，而纯硬负样本采样可能引入噪声并导致训练不稳定；为此研究者设计了火险天气指数引导的硬负样本挖掘方法，通过灾害指数分布对非火灾候选区进行分层，实现了训练与测试阶段负样本构成的系统解耦。

常用场景

经典使用场景

MPCFire数据集为森林火灾预测研究提供了一个覆盖全加拿大陆地生态系统、长达26年、具备每日1公里分辨率的多模态遥感基准。该数据集整合了燃料、气象、地形和人类活动四大类共55个驱动因子，并通过精心设计的四组缓存变体，使研究者能够系统考察FWI引导的硬负样本挖掘（FWI-HNM）与随机负采样在不同训练-评估组合下的效果差异，从而成为验证野火风险建模方法有效性的标准化测试平台。

衍生相关工作

MPCFire的公开催生了一系列衍生研究工作，包括基于其四缓存消融设计的模型鲁棒性分析、不同负采样策略对罕见事件预测性能影响的系统性研究，以及将FWI-HNM方法迁移至其他地理区域（如地中海盆地或澳大利亚丛林）的跨域迁移学习探索。此外，该数据集的多模态特性激发了融合时空注意力机制的动态火灾预测模型开发，以及利用其长时序特性进行气候变化情景下火灾行为长期趋势分析的衍生研究。

数据集最近研究