nuhmanpk/emergency-response-instructions
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/nuhmanpk/emergency-response-instructions
下载链接
链接失效反馈官方服务:
资源简介:
一个监督微调(SFT)数据集,基于政府和国际组织的官方文件,专注于灾害准备、应急响应和危机安全。数据集整合了来自FEMA、CDC、USGS、DHS、WHO、IFRC、UNICEF、红十字会等机构的可信指导,并将其转化为结构化的指令遵循示例。数据集涵盖多种灾害场景,包括地震、洪水、飓风、野火、龙卷风、极端天气、停电、山体滑坡、海啸、火山、核与辐射事件、化学事故、网络安全紧急情况、水安全与卫生、公共卫生紧急情况以及战争与民防准备等。数据集设计了7种指令原型,包括摘要、分步清单、关键事实、事前/事中/事后、解释原因推理、应急物资清单和是/否+推理。数据集适用于应急助手、灾害响应副驾驶、公共安全聊天机器人和教育工具等应用场景。
A supervised fine-tuning (SFT) dataset built from official government and international organization documents focused on disaster preparedness, emergency response, and crisis safety. The dataset consolidates trusted guidance from agencies like FEMA, CDC, USGS, DHS, WHO, IFRC, UNICEF, Red Cross, and more — transforming them into structured instruction-following examples. The dataset spans multi-hazard scenarios, including earthquakes, floods, hurricanes & storms, wildfires, tornadoes, extreme heat & winter storms, power outages, landslides & tsunamis, volcanoes & ash hazards, nuclear & radiological events, chemical incidents, cybersecurity emergencies, water safety & sanitation, public health emergencies, and war & civil defense preparedness. Each document is chunked and transformed into 7 instruction archetypes: Summary, Step-by-step checklist, Key facts, Before / During / After, Explain-why reasoning, Emergency supplies list, and Yes/No + reasoning. The dataset is suitable for emergency assistants, disaster response copilots, public safety chatbots, and educational tools.
提供机构:
nuhmanpk
搜集汇总
数据集介绍

构建方式
该数据集基于美国联邦应急管理局、疾病控制与预防中心、地质调查局、国土安全部以及世界卫生组织、红十字会等权威机构发布的官方文件构建而成。研究团队从60余份经过验证的PDF指南中提取文本,将其分割为结构化片段,并转化为七种指令原型,包括摘要、逐步清单、关键事实、分阶段行动指南、因果推理解释、应急物品清单及是非推理问答,最终形成监督微调所需的指令跟随样本。
使用方法
用户可通过Hugging Face的datasets库直接加载数据集,使用load_dataset('nuhmanpk/emergency-response-instructions')即可获取。典型应用是微调因果语言模型,例如以DistilGPT2为基础,将训练集与验证集的文本字段进行分词处理,设置最大长度1024,采用自回归语言建模目标进行训练。训练后的模型可部署于应急教育、危机模拟及自动化安全响应等场景。
背景与挑战
背景概述
在自然灾害与人为危机频发的当代社会,构建具备可信赖应急响应能力的人工智能系统成为公共安全领域的重要议题。由研究员Nuhman Pk主导、依托FEMA、CDC、USGS、WHO等全球权威机构官方文档构建的Emergency Response Instructions数据集于近年应运而生,旨在为语言模型提供结构化、多灾种的应急指令微调资源。该数据集覆盖地震、洪水、飓风、核辐射、网络安全等数十种危机场景,通过摘要、步骤清单、事态分阶段指导等七种指令范式,将分散的政府指南转化为可训练的推理范例,为安全苛求型AI系统(如灾难响应助手、公众安全聊天机器人)提供了高质量的训练基础,对提升AI在危机情境中的决策可靠性具有重要推动作用。
当前挑战
该数据集所应对的领域核心挑战在于,通用语言模型在面对真实灾害时易生成不准确、滞后甚至危险的指导,而官方应急文档的格式异构、术语专业且情境依赖性强,难以被模型直接理解。构建过程中,首要挑战是将PDF、网页等非结构化政府文件精准切分为语义完整、可独立推理的指令片段,并确保跨机构、跨国界的信息一致性;其次,需设计兼顾操作性与安全性的指令模板(如“原因解释”“是非判断+推理”),在保留原始权威信息的同时避免简化或扭曲。此外,数据集需平衡多灾种覆盖广度与细粒度专业性,例如核事故与公共卫生事件的指导逻辑差异巨大,如何统一表征而不损失关键细节,是保障模型泛化能力的另一关键难点。
常用场景
经典使用场景
该数据集在指令微调与生成式语言模型领域展现了独特的价值,其核心应用场景在于为多灾种应急响应场景构建高质量的监督式微调(SFT)数据。通过系统性地整合来自FEMA、CDC、USGS等权威机构在灾害防范与危机应对领域的文档,数据将被转化为结构化的指令遵循样本,涵盖摘要生成、分步骤检查清单、关键事实提取、灾前灾中灾后行为指导、因果推理解释、应急物资清单以及是否判断与推理等七类经典指令模板。这一设计使得它可以支持诸如紧急助手、灾难响应副驾驶、公共安全聊天机器人以及教育辅助工具等多种生成式AI系统在安全关键场景下的微调与部署,尤其适用于需要确保信息高可靠性与可操作性的领域。
解决学术问题
该数据集解决了安全关键场景下大型语言模型(LLM)指令遵循能力的构建与评估问题,填补了在跨权威来源、多灾种统一结构化数据方面的学术空白。经典学术问题集中体现在:如何将分散于政府机构与国际组织的高可信度应急预案文档转化为一个可被系统化学习的格式,从而支撑模型在灾害准备、应急响应与公共安全等任务中的表现。数据集的意义在于它不仅提供了覆盖地震、洪水、飓风、核事故、网络安全事件乃至公共卫生危机等多类风险场景的丰富样本,还通过统一指令模板促进了模型对不同推理路径(如前置规划、实时决策与后验分析)的理解能力。其影响力体现在为AI安全与危机管理交叉领域提供了一个可复现的基准资源,推动了从数据到模型部署的标准化研究进程。
实际应用
在实际应用层面,该数据集为开发面向公众安全与灾后救援的智能系统奠定了坚实基础。典型应用包括部署于移动端或Web端的紧急响应聊天机器人,这些机器人可以在灾害发生时根据用户所在位置和灾害类型,即时生成个性化的避难指引、急救步骤或物资清单。此外,该数据还可用于构建面向政府应急管理部门的决策支持工具,将官方预案转化为可交互问答的对话系统,从而提升灾前演练与灾中指挥的效率。在非政府组织领域,如国际红十字会与儿童基金会,基于此数据集微调的AI系统得以在培训教材自动生成、多语言应急信息分发与志愿者调度辅助等方面发挥作用,显著降低了信息获取与传播的时间成本。
数据集最近研究
最新研究方向
当前,随着多灾种复合型灾害频发与人工智能辅助应急决策需求的激增,该数据集应运而生。其聚焦于将FEMA、CDC、WHO等权威机构发布的灾害应对指南系统转化为结构化指令微调样本,覆盖地震、洪水、核事故、网络安全等数十种场景,并创新性地设计了摘要、分步清单、原因解释等七种推理范式。这一前沿方向不仅为构建安全关键型AI应急助手提供了高质量训练资源,更推动了语言模型在公众安全教育、灾情模拟与响应协同中的可信落地,标志着防灾知识数字化与智能化融合的里程碑。
以上内容由遇见数据集搜集并总结生成



