electricsheepafrica/africa-who-historical-data-for-uga
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-uga
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的乌干达历史健康指标数据。每条记录代表一级行政单位的观测值,数据最后更新于2025年2月7日。数据集共包含14,171行数据(训练集11,336行,测试集2,834行),18个特征列(6个数值型,12个类别型),涵盖地理信息(如地区代码、国家代码)、健康指标(如BMI均值、酒精消费量、青少年死亡率等)、年份信息(1961-2025年)以及其他相关元数据。数据由Electric Sheep Africa处理转换为ML就绪的Parquet格式,并进行了标准化清洗和缺失值处理。数据集存在一些限制,包括原始数据未经独立验证、部分列缺失值较多等。
This dataset contains historical health indicators data for Uganda from WHOs data portal. Each row represents first-level administrative unit observations, with data last updated on HDX on 2025-02-07. The dataset contains 14,171 rows (11,336 train, 2,834 test) with 18 columns (6 numeric, 12 categorical), covering geographic information (e.g., region code, country code), health indicators (e.g., mean BMI, alcohol consumption, adolescent mortality rate), year information (1961-2025), and other relevant metadata. The data was processed by Electric Sheep Africa into ML-ready Parquet format with standardized cleaning and missing value handling. Limitations include unvalidated original data and columns with significant missing values.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)的历史数据门户,经由人道主义数据交换(HDX)平台通过CKAN API下载,并由Electric Sheep Africa团队进行清洗与重构。原始数据经过列名小写化及蛇形命名标准化处理,统一缺失值标记为NaN,剔除缺失率超80%的冗余列(如gho_url),移除40条完全重复记录。基于解析成功率超85%的阈值,将6列字符串类型转换为数值或日期类型。最终以固定随机种子(42)按80/20比例划分为训练集(11336行)与测试集(2834行),并保存为Snappy压缩的Parquet格式,便于机器学习流水线高效调用。
特点
该数据集聚焦乌干达第一级行政单位的健康指标历史观测,包含14171行记录与18个字段,涵盖6个数值型、12个类别型变量,时间跨度自1961年至2025年。核心变量包括gho_display(如平均BMI、人均酒精消费量等指标描述)、year_display(观测年份)、numeric(观测数值)及low/high(置信区间边界)。数据整合了地理编码(region_code、country_code等)与维度分类(如性别、财富十分位数),并通过esa_source与esa_processed字段记录来源与处理标识。数值型字段分布差异显著,numeric列均值达1460万,中位数仅38.67,提示存在极端值或不同量纲的指标共存。
使用方法
用户可通过HuggingFace Datasets库快速加载该数据集,调用`load_dataset("electricsheepafrica/africa-who-historical-data-for-uga")`获取训练与测试分片,并利用`.to_pandas()`方法转换为DataFrame进行灵活性分析。数据集适用于表格分类与回归任务,可基于gho_code、dimension_code等类别字段构建过滤条件,针对特定健康指标(如青少年死亡率)或人口亚群(如女性)展开分析。需注意low与high列缺失率超35%,在建模中应审慎处理其插补或排除。引用时建议标注原始发布者WHO与再封装方Electric Sheep Africa,以尊重数据溯源与协作贡献。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年2月7日通过人道主义数据交换平台(HDX)发布,并由非洲机器学习基础设施机构Electric Sheep Africa精心整理为机器学习就绪的Parquet格式。核心研究聚焦于乌干达(UGA)的第一级行政单位历史健康指标,涵盖1961年至2025年间的人均酒精消费、青少年死亡率及体重指数(BMI)等关键公共卫生数据。该数据集为非洲地区健康与社会经济交叉研究提供了标准化的时序观测基础,尤其适用于分类与回归任务,推动了发展中国家健康数据的可及性与可复用性,对全球健康不平等问题研究具有重要参考价值。
当前挑战
该数据集面临的挑战包括:1)解决领域问题层面,原始数据源自WHO的手动报告与多源调查,存在定义不一致、抽样偏差及误报风险,模型需应对不完整测量(如18.8%的数值缺失)与跨地区可比性难题;2)构建过程中,自动化清洗流程虽统一了缺失值标记并移除了重复行(40条),但无法纠正原始数据中的系统性能量误差,且存在35%以上的缺失列(如`low`和`high`),加上16.9%的维度代码缺失,增加了特征工程与稳健建模的复杂性。
常用场景
经典使用场景
该数据集汇集了世界卫生组织关于乌干达历史健康指标的面板数据,涵盖1961年至2025年期间各级行政区划的观测记录。研究者常将其应用于纵向流行病学建模,分析平均体质指数、人均酒精消费量及青少年死亡率等关键健康指标随时间的演变趋势。经典使用场景包括时间序列预测与因果推断,例如评估特定公共卫生干预政策在不同行政区划下的实施效果,或探究社会经济维度(如财富分位、性别分层)对健康结局的异质性影响。数据集中丰富的分类与数值变量为多层级回归、生存分析与空间流行病学提供了坚实的数据基础。
实际应用
在实际应用层面,该数据集为人道主义援助与公共卫生规划提供了关键的数据导航工具。非政府组织与联合国机构可利用其中的健康指标时间序列,动态监控乌干达国内各一级行政区划的医疗资源缺口,从而优化疫苗分配、营养干预与酒精管控策略。数据集中标注的高缺失率列(如置信区间上下限)更提醒实务工作者在决策时注意数据质量的不确定性。此外,该数据集可直接服务于世界卫生组织在非洲的旗舰项目,比如青少年健康监测与慢性病预防计划的基线评估与成效追踪。
衍生相关工作
该数据集的出现催生了一系列在非洲健康数据科学领域的衍生工作。Electric Sheep Africa团队以此为基础,建立了面向非洲大陆的自动化数据清洗与标准化管道,大幅提升了多源卫生数据(如HDX、WHO GHO)的互操作性。依托该数据集,已有研究开发了针对乌干达地区的健康指标预测模型,并拓展至相邻东非国家的比较分析。同时,数据集中引入的HXL标签与元数据架构,为后续构建针对人道主义领域的多模态机器学习基准测试集提供了可复用的模板,推动了区域健康数据集生态从离散档案向结构化智能资产的转变。
以上内容由遇见数据集搜集并总结生成



