kevincluo/structure_wildfire_damage_classification
收藏Hugging Face2023-09-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kevincluo/structure_wildfire_damage_classification
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: image
dtype: image
- name: label
dtype:
class_label:
names:
'0': affected
'1': destroyed
'2': inaccessible
'3': major
'4': minor
'5': no_damage
splits:
- name: train
num_bytes: 125229532
num_examples: 355
download_size: 125234000
dataset_size: 125229532
language:
- en
tags:
- climate
- wildfire
- image classification
- damage assessment
---
# Dataset Card for Structures Damaged by Wildfire
**Homepage:** [Image Dataset of Structures Damaged by Wildfire in California 2020-2022](https://zenodo.org/record/8336570)
### Dataset Summary
The dataset contains over 18,000 images of homes damaged by wildfire between 2020 and 2022 in California, USA, captured by the California Department of Forestry and Fire Protection (Cal Fire) during the damage assessment process. The dataset spans across more than 18 wildfire events, including the 2020 August Complex Fire, the first recorded "gigafire" event in California where the area burned exceeded 1 million acres. Each image, corresponding to a built structure, is classified by government damage assessors into 6 different categories: Inaccessible (image taken but no assessment made), No Damage, Affected (1-9%), Minor (10-25%), Major (26-50%), and Destroyed (>50%). While over 57,000 structures were evaluated during the damage assessment process, only about 18,000 contains images; additional data about the structures, such as the street address or structure materials, for both those with and without corresponding images can be accessed in the "Additional Attribute Data" file.
The 18 wildfire events captured in the dataset are:
- [AUG] August Complex (2020)
- [BEA] Bear Fire (2020)
- [BEU] BEU Lightning Complex Fire (2020)
- [CAL] Caldor Fire (2021)
- [CAS] Castle Fire (2020)
- [CRE] Creek Fire (2020)
- [DIN] DINS Statewide (Collection of Smaller Fires, 2021)
- [DIX[ Dixie Fire (2021)
- [FAI] Fairview Fire (2022)
- [FOR] Fork Fire (2022)
- [GLA] Glass Fire (2020)
- [MIL] Mill Mountain Fire (2022)
- [MON] Monument Fire (2021)
- [MOS] Mosquito Fire (2022)
- [POST] Post Fire (2020)
- [SCU] SCU Complex Fire (2020)
- [VAL] Valley Fire (2020)
- [ZOG] Zogg Fire (2020)
The author retrieved the data, originally published as GIS features layers, from from the publicly accessible CAL FIRE Hub, then subsequently processed it into image and tabular formats. The author collaborated with Cal Fire in working with the data, and has received explicit permission for republication.
### Data Fields
The data instances have the following fields:
- `image`: A `PIL.Image.Image` object containing the image. Note that when accessing the image column: `dataset[0]["image"]` the image file is automatically decoded. Decoding of a large number of image files might take a significant amount of time. Thus it is important to first query the sample index before the `"image"` column, *i.e.* `dataset[0]["image"]` should **always** be preferred over `dataset["image"][0]`.
- `labels`: an `int` classification label.
Class Label Mappings:
```
{
"affected": 0,
"destroyed": 1,
"inaccessible": 2,
"major": 3,
"minor": 4,
"no_damage": 5,
}
```
### Data Splits
| | train |
|---------------|------:|
| # of examples | 18,714 |
许可证:CC BY-4.0
配置项:
- 配置名称:default
数据文件:
- 划分集:train
文件路径:data/train-*
数据集信息:
特征字段:
- 字段名:image
数据类型:图像
- 字段名:label
数据类型:
类别标签:
类别映射:
'0': affected(受影响)
'1': destroyed(损毁)
'2': inaccessible(无法抵达)
'3': major(严重损毁)
'4': minor(轻微损毁)
'5': no_damage(无损坏)
划分集:
- 名称:train
字节数:125229532
样本数量:355
下载大小:125234000
数据集总大小:125229532
语言:
- 英语(en)
标签:
- 气候(climate)
- 野火(wildfire)
- 图像分类(image classification)
- 损毁评估(damage assessment)
# 野火损毁建筑数据集卡片(Dataset Card for Structures Damaged by Wildfire)
**主页链接**:[Image Dataset of Structures Damaged by Wildfire in California 2020-2022](https://zenodo.org/record/8336570)
### 数据集概述
本数据集包含2020至2022年间美国加利福尼亚州境内野火损毁房屋的逾18000张图像,这些图像由加州林业与消防局(California Department of Forestry and Fire Protection, Cal Fire)在损毁评估过程中采集。本数据集涵盖超过18起野火事件,包括2020年八月复合山火(August Complex Fire)——这是加州有记录以来首起过火面积超100万英亩的“巨型山火(gigafire)”。每张对应一处建成建筑的图像均由政府损毁评估人员划分为6个类别:无法抵达(仅拍摄图像但未完成评估,Inaccessible)、无损坏(No Damage)、受影响(受灾比例1%-9%,Affected)、轻微损毁(受灾比例10%-25%,Minor)、严重损毁(受灾比例26%-50%,Major)以及完全损毁(受灾比例>50%,Destroyed)。尽管在损毁评估过程中总计评估了超过57000处建筑,但仅约18000处配有对应图像;有关建筑的额外信息(如街道地址、建筑材料等),无论是否带有对应图像,均可在"Additional Attribute Data(附加属性数据)"文件中获取。
本数据集收录的18起野火事件如下:
- [AUG] August Complex (2020)
- [BEA] Bear Fire (2020)
- [BEU] BEU Lightning Complex Fire (2020)
- [CAL] Caldor Fire (2021)
- [CAS] Castle Fire (2020)
- [CRE] Creek Fire (2020)
- [DIN] DINS Statewide (Collection of Smaller Fires, 2021)
- [DIX[ Dixie Fire (2021)
- [FAI] Fairview Fire (2022)
- [FOR] Fork Fire (2022)
- [GLA] Glass Fire (2020)
- [MIL] Mill Mountain Fire (2022)
- [MON] Monument Fire (2021)
- [MOS] Mosquito Fire (2022)
- [POST] Post Fire (2020)
- [SCU] SCU Complex Fire (2020)
- [VAL] Valley Fire (2020)
- [ZOG] Zogg Fire (2020)
数据集制作者从公开可访问的CAL FIRE Hub获取了原本以GIS特征图层形式发布的原始数据,随后将其处理为图像与表格格式。制作者与Cal Fire合作处理该数据集,并已获得重新发布的明确许可。
### 数据字段
数据样本包含以下字段:
- `image`: 包含图像的`PIL.Image.Image`对象。请注意,当访问图像列时,`dataset[0]["image"]`会自动对图像文件进行解码。解码大量图像文件可能会耗费较长时间,因此建议始终先通过样本索引访问图像列,即优先使用`dataset[0]["image"]`而非`dataset["image"][0]`。
- `label`: 整数类型的分类标签。
类别标签映射关系如下:
{
"affected": 0,
"destroyed": 1,
"inaccessible": 2,
"major": 3,
"minor": 4,
"no_damage": 5,
}
### 数据划分
| | train |
|---------------|------:|
| # of examples | 18,714 |
提供机构:
kevincluo
原始信息汇总
数据集卡片 for Structures Damaged by Wildfire
数据集概述
该数据集包含2020年至2022年间美国加利福尼亚州因野火受损的房屋的超过18,000张图像,这些图像由加利福尼亚州林业和消防保护部门(Cal Fire)在损害评估过程中捕获。数据集涵盖了超过18次野火事件,包括2020年的August Complex Fire,这是加利福尼亚州首次记录的“gigafire”事件,燃烧面积超过100万英亩。每张图像对应一个建筑物,由政府损害评估员分为6个不同类别:Inaccessible(图像已拍摄但未进行评估)、No Damage、Affected(1-9%)、Minor(10-25%)、Major(26-50%)和Destroyed(>50%)。虽然超过57,000个建筑物在损害评估过程中被评估,但只有约18,000个包含图像;关于有和没有相应图像的建筑物的其他数据,如街道地址或建筑材料,可以在“Additional Attribute Data”文件中访问。
数据字段
数据实例包含以下字段:
image:包含图像的PIL.Image.Image对象。注意,当访问图像列时:dataset[0]["image"],图像文件会自动解码。解码大量图像文件可能需要大量时间。因此,首先查询样本索引再访问"image"列,即dataset[0]["image"]应始终优先于dataset["image"][0]。labels:一个int分类标签。
类别标签映射:
{ "affected": 0, "destroyed": 1, "inaccessible": 2, "major": 3, "minor": 4, "no_damage": 5, }
数据分割
| train | |
|---|---|
| # of examples | 18,714 |
搜集汇总
数据集介绍

构建方式
在野火灾害评估领域,该数据集的构建体现了严谨的数据采集与处理流程。其原始数据源自美国加州林业与消防部门在2020至2022年间对超过18场重大野火事件(包括具有里程碑意义的2020年八月复合火灾)的实地损害评估记录。作者从公开的CAL FIRE Hub平台获取了以地理信息系统图层形式发布的数据,并经过系统化处理,将包含图像的结构物信息转化为标准化的图像与表格格式。这一过程不仅涉及数据格式转换,更确保了与官方评估分类体系的一致性,最终形成了包含约18,714张图像样本的训练集,为后续分析奠定了可靠基础。
特点
该数据集的核心特征在于其权威性与精细化的分类体系。所有图像均来自加州消防部门的官方实地勘察,覆盖了从“无法评估”到“完全损毁”的六个等级,精确反映了结构物受损的连续谱系。数据跨越多个火灾季节与地理区域,囊括了包括首场“十亿级火灾”在内的多样火情场景,提供了火灾损害模式的全景视角。图像与附加属性数据的关联性,为多模态分析创造了条件,使得研究者不仅能进行视觉分类,还能结合建筑属性开展更深层次的因果推断。
使用方法
在应用层面,该数据集主要服务于基于计算机视觉的野火损害自动评估模型开发。使用者可通过标准数据加载接口访问图像及其对应的整数型分类标签。为优化处理效率,建议采用索引优先的图像访问方式(即`dataset[0]["image"]`),以避免大规模图像解码带来的性能瓶颈。研究人员可利用该数据集训练分类模型,实现从航拍或地面图像中快速、准确地识别建筑受损等级,从而为灾后应急响应、损失评估及保险理赔提供自动化工具支持。数据集的标准划分便于直接用于模型训练与验证。
背景与挑战
背景概述
在气候变化加剧的背景下,野火灾害对人类社会构成的威胁日益严峻,快速精准的灾后损失评估成为应急响应与恢复重建的关键环节。由研究人员Kevin Cluo于2023年构建的‘结构野火损害分类’数据集,依托美国加州林业与消防局在2020至2022年间对超过18场野火事件的实地勘察,收录了逾1.8万张受损建筑图像,并按损害程度精细划分为‘受影响’、‘损毁’、‘无法评估’等六个等级。该数据集不仅记录了包括首个‘千兆火灾’——八月复合火灾在内的重大灾害案例,而且通过官方评估标签为计算机视觉技术在灾害损失自动化判读领域提供了高质量基准,显著推动了防灾减灾研究的实证化与智能化进程。
当前挑战
该数据集致力于解决野火后建筑损害自动化分类的复杂问题,其核心挑战在于灾害场景的多样性与标签的细粒度界定。图像采集于真实灾后环境,存在光照不均、视角多变、背景杂乱以及部分建筑被烟雾或植被遮挡等问题,对模型的鲁棒性构成严峻考验。在构建过程中,数据源自加州消防局的GIS地理图层,需经过复杂的格式转换与清洗流程,且原始评估中仅约三分之一的结构附有图像,样本覆盖的完整性受到限制;同时,损害等级的划分依赖人工评估,类别间边界存在主观模糊性,为监督学习带来了标签噪声的潜在风险。
常用场景
经典使用场景
在野火灾害评估领域,该数据集为计算机视觉模型提供了宝贵的训练资源。其核心应用场景在于构建高精度的建筑物损伤自动分类系统,通过对加州野火后实地拍摄的建筑物图像进行六类损伤程度划分,模型能够学习从“未受损”到“完全损毁”的视觉特征谱系。这一过程不仅模拟了人工评估员的决策逻辑,更通过大规模标注数据实现了对复杂灾后场景的标准化解析,为后续的自动化分析奠定了坚实基础。
解决学术问题
该数据集有效应对了灾害遥感分析中细粒度损伤识别的学术挑战。传统卫星影像往往难以捕捉建筑物级别的结构细节,而本数据集提供的近地面视角图像,填补了微观损伤特征研究的空白。它使研究者能够深入探究卷积神经网络在非结构化灾后环境中的泛化能力,同时为多标签分类、样本不平衡处理以及小样本学习等机器学习前沿问题提供了真实世界的验证平台,推动了灾害信息学与计算机视觉的交叉融合。
衍生相关工作
围绕该数据集,学术界已衍生出一系列经典研究工作。部分研究专注于改进模型架构,如引入注意力机制以聚焦火灾烟尘、结构变形等关键特征;另有工作探索多模态学习,尝试结合本数据集的图像与附带的属性表格数据(如街道地址、建筑材料)以提升分类性能。此外,该数据集常被用作基准,与卫星影像、激光雷达点云等其他模态的灾后数据进行融合分析研究,推动了多源异构数据在灾害评估中的协同应用范式发展。
以上内容由遇见数据集搜集并总结生成



