five

africa-population-burkina-faso

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-burkina-faso
下载链接
链接失效反馈
官方服务:
资源简介:
EM-DAT - 国家概况,布基纳法索数据集是一个关于布基纳法索自然危害相关事件的聚合数据集合。该数据集由流行病学研究中心发布,包含22行数据,每行对应特定年份、国家和灾害子类型的组合,报告了灾害数量、受影响总人数、死亡总数和经济损失等指标。数据集分为训练集(17行)和测试集(4行),包含13个列(5个数值型,8个类别型)。地理范围限定为布基纳法索(BFA)。数据集适用于表格分类任务,特别是在人口统计和灾害影响分析领域。数据最后更新于2026年4月24日,并由Electric Sheep Africa转换为ML就绪的Parquet格式。
创建时间:
2026-04-26
原始信息汇总

数据集概述:EM-DAT - Country Profiles, Burkina Faso

数据集地址: https://huggingface.co/datasets/electricsheepafrica/africa-population-burkina-faso

基本信息

  • 发布方: Centre for Research on the Epidemiology of Disasters
  • 数据来源: HDX
  • 许可协议: hdx-other
  • 更新日期: 2026-04-24
  • 语言: 英语
  • 数据集大小: 少于 1000 条样本
  • 任务类别: 表格分类
  • 标签: africa, humanitarian, hdx, electric-sheep-africa, affected-population, economics, fatalities, hxl, natural-disasters, bfa

数据集内容

该数据集汇总了布基纳法索(BFA)与自然灾害相关事件的EM-DAT数据。每一行对应一个特定的年份、国家、灾害子类型组合,并报告以下指标:

  • 灾害数量
  • 受影响总人数
  • 总死亡人数
  • 经济损失(原始值和调整值)

地理范围: BFA(布基纳法索) 时间范围: 2001.0 – 2024.0 数据行数: 22 行(训练集 17 行,测试集 4 行) 列数: 13 列(5 个数值列,8 个类别列)

变量说明

列名 类型 说明
year float64 年份(2001.0 – 2024.0)
country object 国家名称(Burkina Faso)
iso object 国家代码(BFA)
disaster_group object 灾害组别(Natural)
disaster_subroup object 灾害子组(Hydrological, Climatological)
disaster_type object 灾害类型(Flood, Drought)
disaster_subtype object 灾害子类型(Riverine flood, Drought, Flood (General))
total_events float64 灾害事件总数(1.0 – 3.0)
total_affected float64 受影响总人数(560.0 – 4000000.0)
total_deaths float64 总死亡人数(2.0 – 52.0)
cpi float64 消费者价格指数(56.4466 – 100.0)
esa_source object 数据来源(HDX)
esa_processed object 处理日期(2026-04-29)

数据处理与限制

  • 数据清洗: 原始数据通过HDX的CKAN API下载并转换为Parquet格式;列名转换为小写蛇形命名;常见缺失值标记统一为NaN;移除了两个缺失率超过80%的列(total_damage_usd_original, total_damage_usd_adjusted);按80/20比例随机分割为训练集和测试集(种子42)。
  • 限制说明:
    • 数据来自灾难流行病学研究中心,未经Electric Sheep Africa独立验证。
    • 自动化清洗无法纠正原始采集中的错误报告、定义不一致或抽样偏差。
    • total_deaths 列缺失率超过20%,在建模中应谨慎使用。

引用格式

bibtex @dataset{hdx_africa_population_burkina_faso, title = {EM-DAT - Country Profiles, Burkina Faso}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-bfa}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然灾害流行病学研究领域,系统化的灾害数据整理对于风险评估与应急管理至关重要。该数据集源自灾害流行病学研究中心(CRED)维护的EM-DAT国际灾害数据库,经由人道主义数据交换平台(HDX)获取原始资料,并由Electric Sheep Africa团队精心转化为机器学习就绪的Parquet格式。数据处理流程包括通过CKAN应用程序编程接口下载布基纳法索的汇总数据,对列名统一采用小写蛇形命名规范,将缺失值标记如'N/A'、'null'等统一转换为NaN,并剔除缺失率超过80%的字段(原始与调整后的经济损失列)。基于解析成功率超过85%的阈值,将四列字符串转换为数值或日期类型,最后按照固定随机种子42划分为80%训练集与20%测试集,保存为Snappy压缩Parquet文件。
使用方法
为充分挖掘该数据集的潜在价值,推荐采用HuggingFace的datasets库进行高效加载与处理。用户可通过一行代码`load_dataset("electricsheepafrica/africa-population-burkina-faso")`即可获取预分割的训练与测试集,并借助`to_pandas()`方法转换为Pandas数据框进行后续分析。在应用场景上,该数据集适用于构建分类与回归模型,如预测灾害影响的严重程度或评估历史灾害模式。考虑到时间序列特性,可结合年份特征进行趋势分析或因果推断。缺失值处理策略需分列制定,对死亡人数等缺失率较高的特征可考虑插补或剔除,而对经济指标相关列已预先清洗。研究者应参考原始HDX页面的方法论说明,以理解数据采集局限性并合理控制建模偏差。
背景与挑战
背景概述
该数据集由灾害流行病学研究中心(CRED)创建,旨在系统整理布基纳法索因自然灾害导致的受影响人口、死亡人数及经济损失等关键指标。数据来源于人道主义数据交换平台(HDX),并经Electric Sheep Africa整理为机器学习就绪的Parquet格式。核心研究问题在于量化洪水、干旱等灾害对布基纳法索人口与经济的冲击,为灾害风险评估、人道主义响应及政策制定提供数据支撑。作为EM-DAT国家概况系列的一部分,该数据集为非洲地区灾害影响研究提供了基准,有助于揭示撒哈拉以南非洲国家在自然灾害面前的脆弱性模式。
当前挑战
该领域的主要挑战在于数据稀疏且高度集中——仅含22条记录,涵盖2001至2024年间有限年份的灾害事件,难以支撑稳健的统计建模或时序预测。高达54.5%的死亡人数列缺失,更严重限制了因果关系推断能力。构建过程中的挑战包括原始数据来源多样性不足,灾害定义与报告标准存在跨国不一致性,自动清洗无法修正误报或采样偏差。此外,宏观经济指标(如CPI)与灾害数据的融合需谨慎处理混杂因素,而小样本量极易导致过拟合与泛化能力不足,为机器学习应用带来本质困难。
常用场景
经典使用场景
在自然灾害与人口脆弱性交叉研究领域,africa-population-burkina-faso数据集为探究布基纳法索境内洪涝与干旱等极端气候事件对人类社会的冲击提供了宝贵的时间序列观测窗口。该数据集最经典的用法是作为面板数据进行时序预测分析,研究人员可借助年度灾害频次、受影响人口规模及死亡人数等核心指标,构建灾害损失评估模型或风险动态监测框架。其精细化的灾种子类型划分——如区分河流泛滥与一般性洪涝——使得从宏观气象条件到微观人口暴露度的因果链剖析成为可能,常用于验证气候-冲突-迁移的联动假说。
解决学术问题
该数据集精准回应了西非萨赫勒地区长期存在的“灾害数据稀疏且异构”这一学术痛点,通过标准化整理EM-DAT数据库中布基纳法索的灾情统计,为小样本条件下的脆弱性建模提供了可复现的基准。它帮助研究者定量评估自然灾害对人口流动、粮食安全及经济产出等核心变量的边际影响,填补了跨年度灾损归因分析中数据口径不统一的空白。尤其在检验“灾害冲击是否加剧贫困陷阱”或“气候适应政策成效评估”等议题时,该数据集提供的连贯时间序列使纵向比较成为可能,推进了人道主义援助的循证决策科学化进程。
实际应用
在实际应用层面,该数据集为人道主义救援机构与政府防灾部门的资源调度优化提供了关键数据支撑。通过解析历史灾害中受影响人口数量、死亡人数与经济损失的联动模式,决策者可识别出洪涝与干旱事件的高风险周期及脆弱地带,从而在灾前预置粮食储备、临时安置点及医疗资源。此外,国际发展组织常利用该数据集校准布基纳法索的气候风险保险定价模型,或量化自然灾害对农村生计的影响,以设计更具韧性的扶贫项目。其在亚非拉地区灾害信息交换平台(HDX)上的开放共享,更促进了跨国灾后恢复经验的横向迁移。
数据集最近研究
最新研究方向
该数据集聚焦于布基纳法索自然灾害的多维度时序分析,其研究方向正从传统的灾害损失统计转向与机器学习模型的深度融合,尤其关注受灾人口、死亡人数及经济影响的预测建模。在非洲萨赫勒地区气候脆弱性加剧、极端干旱与洪涝事件频发的背景下,该数据集为探索灾害类型(如河流洪水与干旱)对脆弱人群的差异化冲击提供了宝贵的小样本基准。通过整合EM-DAT的权威灾后评估与HXL人道主义标签体系,研究正朝着构建可迁移的灾害风险预警系统迈进,旨在填补西非次区域精细化灾情数据的空白,并为人道主义响应中的资源优化配置与韧性评估提供数据驱动的决策支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作