africa-population-burundi
收藏Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-burundi
下载链接
链接失效反馈官方服务:
资源简介:
EM-DAT - Country Profiles, Burundi数据集由流行病学灾难研究中心发布,包含布隆迪自然危害相关事件的聚合数据。数据集记录了2000年至2024年间每年的灾害事件,包括灾害类型(如洪水、风暴、干旱)、灾害子类型、受影响人数、死亡人数和经济损失等指标。数据集共包含39行数据,分为31行的训练集和7行的测试集。每行数据代表一个国家级别的聚合记录,包含13个字段(5个数值型,8个分类型)。主要字段包括年份、国家、ISO代码、灾害类型、灾害子类型、总事件数、总受影响人数、总死亡人数和CPI等。数据集适用于表格分类任务,特别是在人口统计和灾害影响分析领域。数据经过清洗和标准化处理,转换为Parquet格式,并进行了80/20的训练测试分割。需要注意的是,部分字段存在较高的缺失值比例。
The EM-DAT - Country Profiles, Burundi dataset is published by the Centre for Research on the Epidemiology of Disasters and contains aggregated data on natural hazard-related events in Burundi. The dataset records annual disaster events from 2000 to 2024, including disaster types (e.g., floods, storms, droughts), disaster subtypes, number of affected people, deaths, and economic loss indicators. The dataset consists of 39 rows of data, divided into 31 rows for training and 7 rows for testing. Each row represents a country-level aggregated record with 13 fields (5 numerical, 8 categorical). Key fields include year, country, ISO code, disaster type, disaster subtype, total events, total affected, total deaths, and CPI. The dataset is suitable for tabular classification tasks, particularly in demographic and disaster impact analysis. The data has been cleaned and standardized by Electric Sheep Africa, converted to Parquet format, and split 80/20 for training/testing. Note that some fields (e.g., total_deaths) have high missing value ratios and should be used with caution.
创建时间:
2026-04-26
原始信息汇总
数据集概要:EM-DAT – 布隆迪国家概况
该数据集由灾害流行病学研究中心发布,来源于人道主义数据交换(HDX),由 Electric Sheep Africa 整理为机器学习就绪的 Parquet 格式。数据覆盖布隆迪(BDI)与自然灾害相关的事件,并提供国家层面的汇总数据。
基本信息
| 项目 | 内容 |
|---|---|
| 数据集名称 | EM-DAT - Country Profiles, Burundi |
| 发布机构 | Centre for Research on the Epidemiology of Disasters |
| 数据来源 | HDX |
| 许可证 | hdx-other |
| 更新时间 | 2026-04-24 |
| 语言 | 英语 |
| 任务类型 | 表格分类 |
数据规模与划分
- 总行数:39 行
- 列数:13 列(5 个数值型,8 个类别型)
- 训练集:31 条记录
- 测试集:7 条记录
- 地理范围:布隆迪(BDI)
主要变量
| 变量类别 | 变量名 | 说明 |
|---|---|---|
| 地理信息 | year |
年份(2000–2024) |
| 地理信息 | country |
国家名称(Burundi) |
| 地理信息 | iso |
国家代码(BDI) |
| 灾害类型 | disaster_type |
灾害类型(洪水、风暴、干旱) |
| 灾害类型 | disaster_subtype |
灾害子类型(一般性洪水、河流洪水、干旱) |
| 灾害类型 | disaster_group |
灾害组别(Natural) |
| 灾害类型 | disaster_subroup |
灾害亚组(水文、气象、气候) |
| 测量指标 | total_events |
灾害事件总数(1.0–3.0) |
| 测量指标 | total_affected |
受影响总人数(50–2,150,000) |
| 测量指标 | total_deaths |
死亡总人数(1–120) |
| 元数据 | cpi |
消费者价格指数(54.9–100.0) |
| 元数据 | esa_source |
数据来源(HDX) |
| 元数据 | esa_processed |
处理日期(2026-04-29) |
数据限制
- 数据未经 Electric Sheep Africa 独立验证。
- 自动清洗无法纠正原始数据中可能的误报、定义差异或采样偏差。
- 列
total_deaths缺失值高于 20%,在建模中需谨慎使用。 - 两列(
total_damage_usd_original、total_damage_usd_adjusted)因缺失值超过 80% 已被移除。
引用格式
bibtex @dataset{hdx_africa_population_burundi, title = {EM-DAT - Country Profiles, Burundi}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-bdi}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自EM-DAT灾害数据库,由灾害流行病学研究中心整理并发布至人道主义数据交换平台(HDX),再经Electric Sheep Africa团队以CKAN API下载并转化为Parquet格式。原始数据经列名统一转化为小写蛇形命名,缺失值标记统一为NaN,删除缺失率超过80%的列,并根据解析成功率将四列由字符串转为数值或日期类型。最终按80/20比例划分训练集与测试集,固定随机种子确保可复现性,并以Snappy压缩格式存储。
特点
数据集聚焦布隆迪国家层面,共收录39条记录,涵盖2000至2024年间自然灾害事件。每一条观测对应特定年份、国家与灾害子类型,统计指标包括灾害发生次数、受影响人数、死亡人数及经济损。数据包含13个字段,其中5个数值字段涵盖总事件数、受影响人口、死亡人数及消费者价格指数,另含8个类别字段描述灾害类型、亚类及地理元数据。值得注意的是,死亡人数列缺失率高达48.7%,提示在使用中需谨慎处理。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,调用load_dataset('electricsheepafrica/africa-population-burundi')即可获取。加载后可通过to_pandas()方法将训练集与测试集转化为Pandas DataFrame以进行后续分析和建模。该数据集适用于自然灾害影响建模、人口脆弱性分析及时间序列预测等任务,但因数据量较小(训练集31条、测试集7条),更适合作为小样本实验或教学案例使用。
背景与挑战
背景概述
africa-population-burundi数据集由灾害流行病学研究中心(CRED)于2026年创建,经Humanitarian Data Exchange(HDX)平台发布,并由Electric Sheep Africa团队整理为机器学习就绪格式。该数据集聚焦布隆迪在2000至2024年间因自然灾害(如洪水、风暴和干旱)导致的人口影响,收录了灾害事件次数、受影响人数、死亡人数及经济损失等关键指标。作为EM-DAT国家概况系列的一部分,它为人道主义救援和防灾减灾研究提供了精细化的统计数据,尤其填补了非洲地区在灾害人口影响量化分析方面的数据空白,对提升区域灾害风险管理和应急响应的科学性具有重要价值。
当前挑战
该数据集面临的主要挑战包括:第一,领域问题层面,布隆迪作为东非内陆国家,自然灾害频发且数据采集基础设施薄弱,导致原始数据存在漏报、定义不一致及采样偏差,影响模型的泛化能力;第二,构建过程层面,自动清洗虽统一了缺失值标识,但无法纠正原始报告中的误报,且处理过程中移除了80%以上缺失值的经济损失字段,损失了关键经济影响信息;第三,数据稀疏性显著,总样本仅39行,其中死亡人数列缺失率达48.7%,迫使模型在高度不确定性下学习,易引发过拟合和预测偏差。
常用场景
经典使用场景
在灾害风险建模与灾后影响评估的学术脉络中,africa-population-burundi数据集作为布隆迪国家级自然灾害统计资料的机器学习就绪版本,其经典使用场景在于构建时序预测模型,用于预估不同类型灾害(如洪水、干旱、风暴)对人口造成的冲击规模。研究者利用该数据集中按年份聚合的受灾人数、死亡人数及经济损失记录,能够训练回归或分类模型,实现对未来灾害事件的伤亡程度和受影响范围进行前瞻性推算,从而为灾害预警系统的优化提供量化支撑。
解决学术问题
该数据集精准回应了非洲小国在宏观灾害流行病学中面临的长期数据碎片化困境,系统性地解决了布隆迪地区自然灾害与人口影响之间统计关系难以量化的学术瓶颈。通过整合多年度、多灾种的人口受灾与死亡数据,研究者得以克服在欠发达国家中常见的数据稀疏性问题,揭示出灾害类型、时间演化与人口脆弱性之间的深层次关联,为全球灾害风险研究的区域比较提供了稀缺而关键的参照基准,显著推动了脆弱国家灾害影响实证研究的边界拓展。
衍生相关工作
基于africa-population-burundi数据集的衍生研究已催生了一系列将小样本时序数据与迁移学习、贝叶斯推断相结合的创新方法。相关经典工作包括利用该数据集探索多任务学习框架以同时预测多灾种影响、开发结合气候再分析数据的灾害脆弱性空间插值算法,以及构建针对数据缺失率高的特征列(如死亡人数)的鲁棒推理模型。此外,该数据集作为‘Electri Sheep Africa’项目的一部分,激励了后续在数十个非洲国家推广同构数据结构化流程,形成了横跨大陆的标准化灾害影响分析数据库,为全国乃至泛非洲层面的联合研究奠定了基础设施。
以上内容由遇见数据集搜集并总结生成



