five

africa-population-angola

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-angola
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为EM-DAT - 国家概况,安哥拉,由流行病学灾难研究中心发布,主要关注安哥拉的自然灾害相关事件。数据集包含国家层面的聚合数据,每条记录对应特定年份、国家和灾害子类型的组合,报告了灾害数量、受影响总人数、死亡总人数和经济损失(原始值和调整值)等数据。数据集共包含34行,13列(5个数值型,8个类别型),分为27行的训练集和6行的测试集。地理范围为安哥拉(AGO)。数据集中的变量包括地理信息(年份、国家、ISO代码、灾害类型和子类型)、结果/测量(总事件数、总受影响人数、总死亡人数)、标识符/元数据(数据来源和处理日期)以及其他信息(灾害组、灾害子组、CPI)。数据集经过清洗和标准化处理,转换为Parquet格式,适合机器学习使用。但需注意,部分列存在缺失值,特别是总死亡人数列缺失率超过20%。
创建时间:
2026-04-26
原始信息汇总

数据集概述:EM-DAT - Country Profiles, Angola

数据集地址: https://huggingface.co/datasets/electricsheepafrica/africa-population-angola

发布者: 灾害流行病学研究中心 (Centre for Research on the Epidemiology of Disasters)
数据来源: HDX
许可证: hdx-other
最后更新(HDX): 2026-04-24
地理范围: 安哥拉(AGO)


数据集描述

该数据集提供了安哥拉与自然灾害相关事件的汇总数据,每条记录对应特定年份、国家和灾害子类型的组合。数据由 Electric Sheep Africa 重新打包为机器学习就绪的 Parquet 格式。


数据集特征

属性
领域 人口学与人口统计
观测单位 国家级汇总数据
总行数 34
列数 13(5个数值型,8个类别型,0个日期时间型)
训练集 27 行
测试集 6 行
地理范围 AGO(安哥拉)
出版方 灾害流行病学研究中心
HDX 最后更新 2026-04-24

变量说明

  • 地理相关: year(年份,范围 2000.0–2026.0)、country(国家,Angola)、iso(ISO 代码,AGO)、disaster_type(灾害类型,如 Flood 洪水、Drought 干旱)、disaster_subtype(灾害子类型,如 Riverine flood 河流洪水、Flash flood 山洪)。
  • 结果/测量: total_events(事件总数,范围 1.0–4.0)、total_affected(受影响总人数,范围 225–2,800,000)、total_deaths(死亡总人数,范围 1.0–130.0)。
  • 标识符/元数据: esa_source(数据来源,HDX)、esa_processed(处理日期,2026-04-29)。
  • 其他: disaster_group(灾害组别,Natural 自然)、disaster_subroup(灾害子组,如 Hydrological 水文、Climatological 气候)、cpi(消费者价格指数,范围 54.8952–100.0)。

数值摘要

列名 最小值 最大值 平均值 中位数
year 2000.0 2026.0 2012.1212 2013.0
total_events 1.0 4.0 1.6061 1.0
total_affected 225.0 2,800,000.0 294,630.6774 25,000.0
total_deaths 1.0 130.0 38.7692 29.0
cpi 54.8952 100.0 72.1711 73.7277

数据处理与限制

  • 数据整理: 原始数据通过 HDX 的 CKAN API 下载,转换为 Parquet 格式;列名统一为小写蛇形命名;缺失值标记(如 N/Anull)统一为 NaN;移除了缺失值超过 80% 的 2 列(total_damage_usd_originaltotal_damage_usd_adjusted);4 列根据解析成功率(>85%)从字符串转换为数值或日期时间;数据集按 80/20 比例随机划分训练集和测试集。
  • 注意事项: 数据来源于灾害流行病学研究中心,未经 Electric Sheep Africa 独立验证;自动清洗无法纠正原始报告中的误差或偏差;total_deaths 列缺失值超过 20%,在建模中需谨慎使用;建议参考 原始 HDX 数据集页面 以获取方法论说明。

引用格式

bibtex @dataset{hdx_africa_population_angola, title = {EM-DAT - Country Profiles, Angola}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-ago}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于灾害流行病学研究中心(CRED)维护的EM-DAT全球灾害数据库,经由人道主义数据交换平台(HDX)获取原始数据后,由Electric Sheep Africa团队进行系统化再加工而成。构建流程涵盖数据清洗、缺失值统一处理、数据类型转换以及基于固定随机种子的80/20分层切分,最终以Snappy压缩的Parquet格式存储,确保了机器学习场景下的高效加载与兼容性。
特点
数据集聚焦安哥拉国家级别的自然灾害聚合统计,记录2000年至2026年间洪水与干旱等事件的发生频次、受影响人口、死亡人数及经济损额等关键指标。其独特之处在于融合了HXL人道主义标签体系,为每一字段赋予语义化注释,同时包含消费者物价指数(cpi)等社会经济背景变量,为灾害影响的多维分析提供了结构化支撑。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,利用`load_dataset`函数获取预划分的训练集与测试集,便捷地转化为Pandas DataFrame进行探索性分析与模型构建。数据集适合用于自然灾害影响的回归预测、时序模式识别以及按灾害类型的分组统计等任务,其清理由脚本自动完成,便于复现与扩展至其他国家的相似分析。
背景与挑战
背景概述
EM-DAT (Emergency Events Database) 是由比利时鲁汶大学灾害流行病学研究中心(CRED)自1988年起建立的全球灾害数据库,旨在系统记录自然灾害与复杂紧急事件的发生与影响。该数据集《africa-population-angola》专注于安哥拉国家层面的灾害聚合统计数据,由Electric Sheep Africa于2026年从人道主义数据交换平台(HDX)提取并转化为机器学习友好的Parquet格式。核心研究问题在于通过量化灾害频率、受影响人口、死亡人数及经济损失,揭示安哥拉在二十一世纪以来面临的洪水与干旱等主要灾害的时空特征。该数据集虽样本量较小(34行),却为非洲灾害风险建模与应急资源分配提供了宝贵的基础参考,尤其推动了机器学习在低资源区域人道主义数据分析中的应用探索。
当前挑战
该数据集所应对的领域挑战在于非洲国家层面灾害数据的稀疏性与异质性:安哥拉仅包含27条训练样本与6条测试样本,且死亡人数缺失率高达23.5%,严重限制了模型泛化能力与统计推断的可靠性。构建过程中面临的挑战包括:原始数据来自CRED未经独立验证的二次汇总,自动化清洗无法校正报告值错误或定义不一致;两列经济损失数据因缺失率超过80%被迫剔除,进一步削弱了分析维度的完整性。此外,数据的时间跨度(2000-2026年)与空间粒度(国家级别)难以捕捉局部灾害的微观动态,使得模型在应对稀疏小样本回归任务时需谨慎处理过拟合风险。
常用场景
经典使用场景
在人口统计学与灾害风险管理的交叉领域中,africa-population-angola数据集为研究人员提供了一个高度结构化、聚焦于安哥拉国家层面的灾害影响时间序列档案。该数据集汇集了2000年至2026年间自然灾害事件的宏观统计数据,涵盖洪水、干旱等主要灾害类型,并记录了发生频次、受影响人口规模、死亡人数及经济损失等核心指标。经典使用方式包括利用这些年度聚合数据,结合消费者价格指数(CPI)等经济变量,构建预测模型以评估灾害对社会经济系统的冲击强度,或通过时序分析揭示灾害发生模式与人口脆弱性的动态关联。
衍生相关工作
基于该数据集的标准化处理流程,Electric Sheep Africa团队推动了多项衍生工作,包括为其他非洲国家(如尼日利亚、肯尼亚)构建类似结构的灾害影响数据集,从而逐步形成覆盖全非洲的EM-DAT标准化档案库。此外,该数据集与开源机器学习工具链(如Hugging Face Datasets库和Parquet格式)的紧密结合,催生了若干关于低资源环境下方差分析、缺失值插补(尤其是total_deaths列的高缺失率处理)的基准研究。经典工作还包括将灾害时序数据与卫星遥感影像数据融合,用于提升受灾区域人口估算模型的精度。这些衍生成果共同构建了一个面向非洲灾害韧性的数据生态系统,使人道主义数据科学从高收入国家向全球南方有效迁移。
数据集最近研究
最新研究方向
当前,该数据集的研究前沿聚焦于将安哥拉自然灾害的历史记录与人口暴露度数据相结合,驱动针对非洲地区的人道主义响应建模与灾害风险预测。通过与HDX(人道主义数据交换)平台联动,学者们正利用EM-DAT提供的国家层面聚合指标,探索洪水和干旱等极端事件对受影响人口数量、死亡人数和经济损失的长期影响。这一方向紧密关联气候适应性政策和可持续发展目标,其意义在于为资源匮乏地区的防灾减灾提供可量化的决策支持,推动机器学习在灾害流行病学与脆弱性评估中的实际应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作