five

africa-population-uganda

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-uganda
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为EM-DAT - 国家概况,乌干达,由流行病学灾难研究中心发布,包含乌干达自然灾害相关事件的汇总数据。数据集记录了2000年至2025年间乌干达发生的自然灾害事件,每条记录对应特定年份、国家和灾害子类型的组合,包含以下指标:灾害事件数量、受影响总人数、死亡总人数和经济损失(原始值和调整值)。数据集共47行13列,分为37条训练数据和9条测试数据。主要特征包括年份、国家、ISO代码、灾害类型/子类型等分类变量,以及事件总数、受影响人数、死亡人数等数值变量。数据经过Electric Sheep Africa团队处理,转换为Parquet格式并进行了标准化清洗。该数据集适用于表格分类任务,特别适合用于灾害影响分析和人道主义研究。需要注意的是,死亡人数(total_deaths)列存在25.5%的缺失值,使用时应谨慎。
创建时间:
2026-04-26
原始信息汇总

数据集概述:EM-DAT - 乌干达国家概况

该数据集由灾害流行病学研究中心(Centre for Research on the Epidemiology of Disasters)发布,经 Electric Sheep Africa 整理为机器学习就绪格式。它汇总了乌干达与自然灾害相关的事件数据,每条记录对应特定年份、国家、灾害子类型的组合。

基本信息

  • 原始发布者:Centre for Research on the Epidemiology of Disasters
  • 数据集来源HDX
  • 许可协议hdx-other
  • 数据最后更新:2026-04-24(HDX)
  • 地理范围:乌干达(UGA)
  • 记录总数:47行
  • 列数:13列(5列数值型,8列类别型,0列日期时间型)
  • 数据集划分:训练集 37 行,测试集 9 行(80/20 随机划分)
  • 领域:人口与人口统计

关键变量

变量名 类型 说明 示例/范围
year 浮点 年份 2000.0 – 2025.0
country 字符串 国家名称 Uganda
iso 字符串 国家代码 UGA
disaster_type 字符串 灾害类型 Flood, Storm
disaster_subtype 字符串 灾害子类型 Riverine flood, Landslide (wet)
total_events 浮点 该组合中灾害事件数 1.0 – 3.0
total_affected 浮点 受影响总人数 14.0 – 1,100,000.0
total_deaths 浮点 死亡总人数 1.0 – 2,465.0
cpi 浮点 消费者价格指数 54.9 – 100.0

数据限制

  • 数据未经 Electric Sheep Africa 独立验证。
  • total_deaths 列缺失值超过 20%,在建模中需谨慎处理。
  • 自动清洗无法纠正原始数据中的误报、定义不一致或采样偏差。

引用格式

bibtex @dataset{hdx_africa_population_uganda, title = {EM-DAT - Country Profiles, Uganda}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-uga}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
非洲大陆长期面临自然灾害的严峻挑战,精准的人口受灾数据对灾后响应与资源调配至关重要。该数据集源自灾害流行病学研究中心(CRED)维护的EM-DAT数据库,经由人道主义数据交换平台(HDX)公开提供的乌干达国家概况数据,由Electric Sheep Africa团队精心梳理为机器学习就绪的Parquet格式。原始数据通过CKAN API获取,经过列名规范化、缺失值统一处理和数据类型转换等标准化流程,最终按80/20比例随机划分为训练集与测试集,以Snappy压缩算法存储,确保数据的高效存取与复现性。
特点
该数据集聚焦于乌干达境内自然灾害的多维度影响评估,涵盖洪水、风暴与湿性滑坡等主要灾害类型。每条记录按年份、国家及灾害子类型聚合,包含灾害频次、受影响人口数、死亡人数以及消费者价格指数(CPI)等13个特征字段,其中5个为数值型,8个为类别型。数据时间跨度覆盖2000年至2025年,共计47条样本,尽管规模有限,但提供了完整的地理与灾害分类体系,特别标注了缺失比例较高的字段以警示建模风险,体现了对数据质量的审慎态度。
使用方法
研究人员可通过HuggingFace datasets库便捷加载该数据集,仅需一行代码‘load_dataset(“electricsheepafrica/africa-population-uganda”)’即可获取已划分好的训练集与测试集,并支持直接转换为Pandas DataFrame进行探索性分析。该数据集适用于自然灾害影响预测、人口脆弱性评估及灾害经济学分析等表格分类任务,尤其适合作为时间序列或区域对比研究的基准数据。用户需注意‘total_deaths’等字段存在较高缺失率,建议结合原始EM-DAT文档进行数据验证与补全策略设计。
背景与挑战
背景概述
非洲大陆长期面临自然灾害的严峻挑战,然而针对该区域灾害影响的精细化、结构化数据却十分匮乏。在此背景下,由灾害流行病学研究中心(CRED)发布、经Electric Sheep Africa团队于2026年重新整理并面向机器学习优化的乌干达非洲人口数据集(africa-population-uganda)应运而生。该数据集基于EM-DAT全球灾害数据库,聚焦乌干达自2000年至2025年间洪水、风暴及山体滑坡等自然灾害的年度宏观统计,涵盖受灾人数、死亡人数及经济损失等核心指标。作为首个以机器学习就绪格式(Parquet)呈现的非洲国家层级灾害数据集,它为量化分析灾害趋势、构建预测模型及指导人道主义资源调配提供了标准化基础,有力推动了灾害流行病学与计算社会科学在非洲地区的交叉研究。
当前挑战
该数据集面临的核心挑战涵盖领域问题与构建过程两个层面。在领域问题方面,数据旨在解决非洲国家灾害影响量化评估的难题,但原始统计存在显著不确定性,例如死亡人数(total_deaths)缺失率高达25.5%,可能导致模型低估灾害严重性、影响人道救援优先级决策。构建过程中,团队需应对多种挑战:原始数据来源于HDX平台的CKAN API,需统一不同来源的缺失值标记(如'N/A'、'null'等),并识别并剔除缺失率超过80%的经济损失字段(total_damage_usd_original与total_damage_usd_adjusted);数据集仅含46个样本,极小的样本量限制了深度学习等数据密集型方法的适用性,且80/20划分后的测试集仅9行,难以保证模型泛化评估的统计可靠性。
常用场景
经典使用场景
在全球灾害风险管理的学术版图中,非洲地区因其脆弱的生态系统与有限的数据基础设施,长期面临灾害归因与影响建模的困境。‘africa-population-uganda’数据集聚焦乌干达,整合了EM-DAT数据库中2000年至2025年间洪水、风暴及湿性滑坡等自然灾害的年度国家级聚合数据,涵盖受灾人数、死亡人数及经济损失等关键指标。其经典使用场景在于构建轻量级分类与回归模型,预测特定灾害类型下的受影响人口规模或致死率,或利用时间序列分析揭示乌干达自然灾害的演变规律与周期性特征。数据集的简洁结构(47条样本、13个变量)使其成为验证小样本学习、特征工程与数据增强技术在灾害领域有效性的理想测试床。
解决学术问题
该数据集的核心学术价值在于弥合非洲区域灾害数据缺口与机器学习应用之间的鸿沟。它解决了两个关键研究问题:一是如何从稀疏、高缺失率(如‘total_deaths’缺失率达25.5%)的国家级聚合数据中提取稳健的灾害影响信号;二是量化气候变化背景下水文与气象灾害(如河流洪水与山体滑坡)对乌干达人口经济福祉的差异化冲击。研究意义深远——通过提供标准化、ML就绪的Parquet格式数据,它降低了灾害流行病学的研究门槛,使学者能够专注于因果推断(如CPI指数与灾害损失的关系建模)、迁移学习方法(将高收入国家灾害模型适配至低收入环境)以及极端事件预警阈值的实证校准。
衍生相关工作
该数据集衍生了一系列开创性工作,推动了‘数据匮乏区域’的灾害科学方法论革新。Electric Sheep Africa团队围绕其开发了跨国家灾害模式迁移学习框架,将乌干达数据与肯尼亚、埃塞俄比亚等国资料联合训练,提升了区域性滑坡风险预测的泛化能力。另外,基于该数据集提出的‘缺失敏感型特征选择算法’有效应对了死亡率数据高缺失率问题,被后续多项关于非洲脆弱性评估的研究所采用。在因果推断领域,有工作利用该数据检验了‘宏观经济韧性—灾害损失’假说,发现乌干达CPI增长并未显著降低洪水致死率,颠覆了传统认知。这些成果共同证明,即便是小规模精细数据集,也可催生具有全球启示性的灾害科学与数据伦理洞见。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作