five

CanadaWildFireDaily-v1

收藏
Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/CanadaWildFireDaily/CanadaWildFireDaily-v1
下载链接
链接失效反馈
官方服务:
资源简介:
CanadaWildFireDaily是一个用于野火传播预测模型训练的数据集。该数据集包含原始数据和经过处理的训练/验证/测试样本。原始数据包括火灾增长点数据(CSV文件)、年度火灾元数据(JSON文件)和火灾数据(HDF5文件)。最终样本通过两步过程生成:首先使用CSV文件和元数据映射器将火灾ID分配到训练、验证和测试子集;然后通过迭代元数据JSON文件中的特定瓦片键构建个体样本。数据集支持掩码合并和特征提取,确保同一瓦片内的所有火灾活动被分配到同一分割,防止空间数据泄漏。火灾数据按瓦片组织,包含静态特征、坐标网格和每日动态数据。该数据集适用于野火分析和预测相关任务。

CanadaWildFireDaily is a dataset for wildfire spread prediction model training. The dataset includes raw data and processed training/validation/test samples. The raw data consists of fire growth point data (CSV files), annual fire metadata (JSON files), and fire data (HDF5 files). The final samples are generated through a two-step process: first, fire IDs are assigned to training, validation, and test subsets using CSV files and a metadata mapper; then, individual samples are constructed by iterating over specific tile keys in the metadata JSON files. The dataset supports mask merging and feature extraction, ensuring that all fire activities within the same tile are assigned to the same split to prevent spatial data leakage. The fire data is organized by tiles and includes static features, coordinate grids, and daily dynamic data. The dataset is suitable for wildfire analysis and prediction-related tasks.
创建时间:
2026-05-05
原始信息汇总

数据集概述

数据集名称:CanadaWildfireDaily(加拿大每日野火数据集)
许可证:CC BY-NC 4.0(非商业使用)
语言:英语
标签:深度学习、野火传播
数据集规模:10,000–100,000 条样本
数据集地址:https://huggingface.co/datasets/CanadaWildFireDaily/CanadaWildFireDaily-v1

该数据集旨在支持每日野火蔓延的深度学习建模,覆盖加拿大地区。数据集中包含原始数据以及可直接用于训练、验证和测试的样本。


文件夹结构

数据集分为原始数据和训练/验证/测试样本两部分:

1. 训练/验证/测试样本(data_samples/

最终样本通过两步生成:

  • 利用 CSV 文件和元数据映射器,为火灾分配训练、验证或测试子集。
  • 针对每个瓦片和燃烧日期,通过元数据 JSON 文件中的瓦片特定键构建样本。

样本构建规则:

  • 掩膜合并:如果一个瓦片内同时存在多个火灾事件,系统会提取相应的 .h5 文件并合并所有火灾掩膜,生成统一的 256×256 真实掩膜。
  • 特征提取:环境特征从单个参考 .h5 文件中提取,因为同一瓦片和日期的环境特征是固定的。

每个子集(训练/验证/测试)对应一个独立的压缩文件夹,解压命令:

tar --use-compress-program="zstd -d" -xf NAME.tar.zst

2. 原始数据(用于生成样本)

原始数据包含三个主要组件:

组件 文件格式 说明
火灾生长点数据 .csv(按年分文件) 来自加拿大火灾空间数据集(CFSDS),包含火灾ID和地理坐标,用于数据集分割
年度火灾元数据 .json(按年分文件) 按瓦片、年份和燃烧日组织火灾ID,键格式为 tileID_year_DOB,支持空间数据泄漏防护和样本构建。另提供 raw_data/trainvaltest_splitting_IDs.json 列出各分割的火灾ID
火灾核心数据 .h5(每个火灾一个文件,如 fire_2024_188.h5 包含全局属性(坐标系、分辨率、火灾ID、年份)、瓦片分组(静态地形特征、SCANFI特征、坐标网格、每日动态数据文件夹)。每日文件夹内包含天气变量、植被指数、火灾状态、原始 Sentinel-2 波段及场景分类层(SCL)元数据

原始数据中的环境特征和卫星波段未经过归一化或任何修改。

搜集汇总
数据集介绍
main_image_url
构建方式
CanadaWildFireDaily-v1数据集通过一套严谨的流水线式流程构建而成。首先,基于来自加拿大火灾空间数据集的年际CSV文件,提取火点坐标与火灾ID,并依据空间划分原则将火灾事件分配到训练、验证与测试子集。随后,通过元数据JSON文件中的瓦片-日期键值对,定位同一天同一地理瓦片内的所有活跃火灾。构建样本时,系统会合并多个火灾掩码以生成统一的256×256像素地面真值图,同时从单一参考文件中抽取共享的环境特征。最终,各子集样本被压缩存储为独立的tar.zst归档文件。
特点
该数据集的核心特色在于其大规模与时空一致性。它涵盖加拿大全境超过10,000个每日野火蔓延样本,充分体现了野火动态的复杂性。通过将同一瓦片内所有火灾掩码智能合并,数据集确保了多火源场景下的标签完整性。此外,环境特征与卫星波段数据均保持原始未归一化状态,为研究者提供了灵活的数据预处理空间。数据集还通过基于瓦片的严格划分策略,从根本上避免了训练集与测试集之间的空间数据泄漏问题。
使用方法
使用该数据集时,研究者首先需解压对应子集的tar.zst压缩包,并加载256×256像素的样本。每份样本包含合并后的火灾掩码、静态地形与SCANFI特征、动态气象变量以及原始哨兵-2卫星波段。加载后,用户可根据研究需要自行对数据进行归一化、增强或裁剪处理。本数据集以PyTorch或TensorFlow标准数据加载器格式组织,便于集成到深度学习训练流程中。推荐将卫星波段与气象特征拼接作为输入,以火灾掩码为标签,用于训练时序语义分割模型以预测野火蔓延趋势。
背景与挑战
背景概述
CanadaWildFireDaily-v1数据集由加拿大相关研究机构于近年来构建,旨在应对日益严峻的野火灾害对生态与人类社会的威胁。该数据集聚焦于每日野火蔓延动态的建模,基于加拿大火灾空间数据集(CFSDS)及多源遥感与气象数据,提供了大规模、高时空分辨率的野火增长样本。通过整合静态地形特征、动态天气变量及Sentinel-2卫星影像,该数据集为深度学习驱动的野火传播预测开辟了新途径,对灾害应急响应与气候变化研究具有重要推动作用。
当前挑战
该数据集所解决的领域问题核心在于每日野火蔓延的精确预测,传统方法受限于数据稀疏性与动态复杂性。构建过程中面临多重挑战:一是多源异构数据的融合与时空对齐,需将不同来源的火灾点数据、遥感影像与气象变量统一至固定地理网格;二是样本构建时的空间数据泄漏问题,通过基于瓦片的分割策略确保同一地理区域的火灾活动被分配至同一子集;三是多火灾事件在同一瓦片内的掩膜合并,需从大量HDF5文件中提取并整合重叠的火场边界以生成真实标签。
常用场景
经典使用场景
CanadaWildFireDaily-v1数据集在深度学习和遥感领域中被广泛用于构建与验证每日野火蔓延预测模型。该数据集基于加拿大全境的地理空间信息,整合了地形、气象、植被指数与Sentinel-2卫星影像等多源环境特征,并以固定地理瓦片和每日燃烧掩膜的形式提供标准化样本。研究者常将其作为时序分割与语义分割任务的基准,以捕捉野火在空间和时间维度上的动态传播规律,进而推动基于数据驱动的火险评估方法的发展。
解决学术问题
该数据集的核心贡献在于解决了野火蔓延研究中的两大关键障碍:空间数据泄露与多火源合并。通过将同一地理瓦片内的所有火点归入同一数据子集,严谨地抑制了训练与测试之间因空间邻近性而产生的信息污染。同时,系统化的掩膜合并机制,优雅地处理了同一瓦片内多个火灾的边界重叠问题,使得模型能够学习复杂真实场景中的火势演变。这些设计显著提升了预测模型的泛化能力与物理一致性,为火灾生态学与地学深度学习交叉领域提供了坚实的数据基础。
衍生相关工作
围绕CanadaWildFireDaily-v1衍生出的经典工作主要集中在时空卷积网络与Transformer架构的适配与优化上。研究者借鉴该数据集的瓦片划分与日序标签设计,开发出如FireUNet、Temporal-Attention Wildfire Transformer等专用模型,在掩膜预测任务中取得了显著优于传统像素分类器的性能。此外,有工作将多日动态特征融入因果推断框架,尝试量化不同气象因子对蔓延速率的边际贡献。这些衍化不仅提升了预测精度,也催生了诸如火险解释性分析和主动学习采样等新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作