Disaster Impact Assessment Dataset

Name: Disaster Impact Assessment Dataset
Creator: 亚利桑那州立大学
Published: 2025-09-15 15:08:48
License: 暂无描述

arXiv2025-09-15 更新2025-09-17 收录

下载链接：

https://cemhs.asu.edu/sheldus

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由亚利桑那州立大学的研究团队创建，旨在通过整合新闻、社交媒体和卫星图像等多源在线数据，评估自然灾害对资产和人员的影响。数据集包含来自美国2017年9个重大灾害事件的1097个县级行政单位的数据，涵盖财产损失、农作物损失、伤亡人数等指标。该数据集可用于研究不同在线数据源在灾害影响评估中的作用，并与传统地面评估方法进行比较，为制定有效的灾害应对计划提供数据支持。

This dataset was created by a research team at Arizona State University. It aims to assess the impacts of natural disasters on assets and human populations by integrating multi-source online data including news, social media, and satellite imagery. The dataset contains data from 1,097 county-level administrative units across 9 major disaster events in the United States in 2017, covering indicators such as property damage, crop loss, and casualty counts. This dataset can be used to study the role of various online data sources in disaster impact assessment, compare them with traditional ground-based assessment methods, and provide data support for formulating effective disaster response plans.

提供机构：

亚利桑那州立大学

创建时间：

2025-09-15

搜集汇总

数据集介绍

构建方式

在灾害评估领域，实时数据获取对应急响应至关重要。该数据集通过整合多源在线数据构建，以美国县级行政单元为分析粒度，选取2017年九场十亿美元级灾害事件。数据采集涵盖三大维度：利用Reddit推送存档API获取社交媒体帖子，通过GNews API爬取谷歌新闻文章，并借助谷歌地球引擎合成哨兵2号卫星影像的土地覆盖变化特征。采用基于地名的子版块地理定位技术，结合GPT-4o-mini进行内容相关性过滤，最终形成1,097个县-事件组合的多模态数据集合。

特点

该数据集的核心价值体现在其多源异构性与精细粒度化架构。数据维度全面覆盖新闻文本、社交媒体内容和卫星遥感影像，其中土地覆盖变化特征包含81类转移矩阵，空间分辨率达10米。时间跨度上采用15-60天可变缓冲窗口捕捉灾前灾后动态变化。特别值得注意的是，数据集通过人工验证标注了地理定位准确性与内容相关性指标，为不同来源数据的可靠性评估提供量化依据。这种设计使得数据集既能反映物理环境变化，又能捕捉社会感知维度，为灾害影响的多角度评估奠定基础。

使用方法

该数据集支持基于机器学习和大型语言模型的两类分析方法。遥感数据适用于财产与农作物损失评估，可通过逻辑回归、随机森林等模型处理土地覆盖转移特征；媒体数据则采用两阶段提示框架：首先使用LLM提取灾害影响的结构化摘要，继而通过分类提示预测四类灾害严重程度（财产损失、农作物损失、人员伤亡与 fatalities）。评估时需注意不同数据源的互补性——卫星影像擅长捕捉物理环境变化，而媒体数据在人员伤亡检测方面表现突出。建议使用时根据灾害类型选择适当的数据源组合，并考虑地理定位误差与选择偏差的校正。

背景与挑战

背景概述

灾害影响评估数据集由亚利桑那州立大学研究团队于2025年创建，旨在通过整合多源在线数据实现灾害影响的实时评估。该数据集聚焦于美国县级行政单元的资产损失与人员伤亡量化分析，突破了传统实地调查的时空局限性。其创新性体现在融合社交媒体、新闻报导与卫星遥感数据，构建了覆盖九起十亿美元级灾害事件的跨模态数据库，为应急管理领域的决策支持提供了数据基础。

当前挑战

领域挑战在于解决多源异构数据融合的语义对齐问题，需精确量化网络信息与实地灾害损失的映射关系。构建过程面临三大技术瓶颈：社交媒体地理定位的精度不足导致空间偏差，卫星影像云层遮挡造成数据缺失，以及新闻文本与灾害损失的因果关联难以剥离。此外，不同数据源的时间分辨率差异与行政单元聚合时的尺度效应亦增加了建模复杂度。

常用场景

经典使用场景

在灾害应急响应领域，Disaster Impact Assessment Dataset 被广泛用于构建多模态灾害评估模型。该数据集整合了卫星遥感、社交媒体和新闻媒体等多源数据，支持研究人员开发机器学习算法来实时估算县域级别的资产损失和人员伤亡情况。经典应用包括利用土地覆盖变化特征预测财产损失等级，以及通过自然语言处理技术从新闻文本中提取灾害影响摘要，为灾害响应决策提供数据驱动的见解。

衍生相关工作

该数据集衍生出多个经典研究方向，包括基于CrisisMMD多模态数据的灾害严重度分类模型改进，以及结合RescueNet高分辨率影像的建筑损伤评估方法。研究者进一步开发了因果特征选择框架，用于区分灾害导致的土地覆盖变化与季节性干扰因素。在自然语言处理领域，衍生工作聚焦于改进GPT-4o在灾害文本中的地理定位精度，并构建了基于LLaMA3-8B的灾害摘要生成系统，推动了多模态灾害分析的技术演进。

数据集最近研究