electricsheepafrica/africa-who-nursing-personnel-hwf0008
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-nursing-personnel-hwf0008
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站指标“护理人员数量”(HWF_0008)在非洲国家层面的观测数据,时间跨度为1985年至2024年。作为Electric Sheep Africa项目的一部分,这是一个统一且适合机器学习的数据集。数据直接从WHO全球健康观察站的OData API获取,并以Parquet文件格式重新打包,所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Nursing personnel (number)" (`HWF_0008`) across African nations, spanning 1985–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区护理人员数量这一核心卫生人力指标(HWF_0008)。数据经过统一的抽取与清洗流程,以Parquet文件格式存储,并严格采用NumericValue浮点数字段作为数值依据,同时保留了置信区间上下限(value_low、value_high)。构建过程确保了跨国家、跨年份的数据一致性,覆盖1985年至2024年间47个非洲国家共计566条观测记录,且所有条目均受限于WHO AFRO区域代码,形成了高度结构化、可直接用于机器学习建模的时间序列数据集。
特点
数据集的核心特点在于其简洁而精准的单维度结构。不同于分层指标的多变量组合,每个国家与年份仅对应一条护理人员数量的数值记录,大幅降低了建模复杂性。所有特征包含指示符代码、国家ISO代码、WHO区域、年份、数值点估计及其置信区间、显示字符串及最后更新时间等字段,为时间序列分析和区域比较提供了清晰的数据基础。此外,数据集已按统一模式重新打包,无需额外处理即可直接接入主流机器学习流程,特别适合用于非洲卫生政策评估与人力规划建模任务。
使用方法
使用本数据集时,可借助HuggingFace的datasets库直接加载:通过load_dataset函数获取训练集,并转换为pandas DataFrame进行后续分析。若关注国家级且不分性别的数据,可通过过滤dim1字段中后缀为_BTSX或缺失值的行来提取。进一步地,针对单个国家如肯尼亚,可利用country_iso3列筛选并按年份排序,从而构建完整的时间序列。该加载方式兼容常见的回归与分类任务,且默认数据格式无需额外标准化,便于快速嵌入实验管线。
背景与挑战
背景概述
在撒哈拉以南非洲地区,护理人力资源的匮乏长期制约着医疗卫生体系的效能提升,成为实现联合国全民健康覆盖目标的关键瓶颈。为此,世界卫生组织全球卫生观察站(WHO GHO)于2024年发布了指标HWF_0008,即“护理人员数量(数值)”,并由Electric Sheep Africa团队将其重新整合为机器学习就绪的数据集。该数据集覆盖1985年至2024年间47个非洲国家的国家级观测数据,共计566条记录,旨在为量化分析非洲护理人力分布、时空演变及其与健康结果的关系提供标准化、可复用的数据基础。这一数据资产的建立,不仅为卫生政策研究者提供了纵向比较的工具,也推动了数据驱动型决策在非洲公共卫生领域应用的可能性。
当前挑战
该数据集所应对的领域挑战在于非洲护理人员数据的碎片化与不可比性:各国报告口径、收集频率及质量参差不齐,使得传统聚合分析难以捕捉真实人力缺口。构建过程中,技术团队面临从WHO OData API中提取并清洗非结构化数据的困难,原始数据常含缺失置信区间、混合显示字符串及多维度分层(如性别、城乡)带来的冗余行,需通过规则筛选与模式匹配转化为浮点型数值。此外,数据跨时近四十年,部分国家年际记录缺失严重,需谨慎处理时间序列的连续性,以避免因稀疏数据对建模结果引入偏倚,从而保证数据集的科学严谨性。
常用场景
经典使用场景
非洲大陆长期面临护理人员短缺的严峻挑战,该数据集为量化分析提供了关键支撑。其最经典的用途在于构建时间序列预测模型,用以估计各国护理人员数量的动态变化趋势;同时,它也广泛用于面板数据回归分析,以探究卫生政策、经济水平与护理人力资本之间的内在关联。通过一致性表格结构和跨47国近40年的观测记录,研究者可以便捷地执行多国比较和纵向追踪,为区域医疗卫生规划奠定数据基石。
解决学术问题
在卫生人力研究领域,该数据集解决了长期存在的跨国可比数据匮乏难题。它使学者能够系统性地评估非洲国家护理人员数量的演变轨迹,揭示资源分配不均、城乡差异及性别结构失衡等结构性缺陷。基于这些指标,研究者能够验证卫生系统韧性理论,量化护理人力对母婴死亡率、传染病防控等关键健康产出指标的贡献,从而为全球健康治理和可持续发展目标的监测提供了不可替代的实证依据。
衍生相关工作
围绕该数据集已衍生出多项重要的研究工作。经典工作包括利用面板计量模型识别非洲护理人力分布的决定因素,以及结合卫星图像和地理信息数据构建人力空间插值估计。另有研究将其与疾病负担数据集关联,用于评估护理密度与健康结局的关系。此外,该数据集还催生了若干机器学习驱动的预测任务,如利用既往年份数据训练回归模型以推估未来护理人力缺口,相关成果发表于《柳叶刀全球健康》等权威期刊。
以上内容由遇见数据集搜集并总结生成



