electricsheepafrica/africa-who-number-of-full-time-equivalent-staff-in-national-agency
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-full-time-equivalent-staff-in-national-agency
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标“国家机构全职等效员工数量”(NTCP_FTE)在非洲国家的国别观察数据,时间跨度为2008年至2022年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of full-time equivalent staff in national agency" (NTCP_FTE) across African nations, spanning 2008–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲国家机构内全职等效工作人员数量(指标代码NTCP_FTE),时间跨度为2008至2022年。数据经过重新打包,以Parquet格式存储,并采用一致的schema结构,所有数值均取自浮点精度的NumericValue字段,同时提供了置信区间上下限(value_low与value_high),确保了数据的精确性与可用性。作为Electric Sheep Africa集合的一部分,该数据集专为机器学习场景而准备,覆盖了36个非洲国家的272条观测记录。
特点
该数据集的核心特点在于其针对非洲区域的专门化设计,仅包含WHO非洲区域(AFR)的观测值,避免了跨区域混杂。每个国家-年份组合对应单一数值,无子维度分层,简化了分析与建模流程。数据列涵盖指示代码、国家ISO代码、年份、数值估计及置信区间等关键信息,其中value_numeric字段直接作为机器学习的主要目标变量。此外,数据集附带了标准化的引用信息和CC BY 4.0开源许可,便于学术研究与二次分发。
使用方法
该数据集可通过HuggingFace Datasets库便捷加载,使用load_dataset函数即可获取训练集,并转换为Pandas DataFrame进行后续操作。用户可按需筛选特定维度,例如通过dim1字段过滤出两类性别(_BTSX)或缺失值对应的全国层面数据。对于时间序列分析,可依据国家ISO代码(如KEN代表肯尼亚)筛选单一国家,并按年份排序以观察趋势。数据集结构清晰,支持分类与回归任务,适合用于预测非洲国家卫生人力编制的统计建模与政策分析。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织(WHO)全球卫生观察站(GHO)的公开数据重新整理而成,创建于2022年,聚焦于非洲国家卫生体系人力资源配置的核心指标——国家级机构全职等效工作人员数量(NTCP_FTE)。作为非洲健康数据机器学习整合计划的一部分,该数据集覆盖36个非洲国家2008至2022年间的时间序列观测值,旨在填补非洲地区卫生人力数据碎片化、格式不统一的空白。其发布对于量化评估非洲各国卫生系统能力、推动基于证据的政策制定以及开展跨区域卫生人力比较研究具有重要价值,也为机器学习模型在卫生资源预测与决策支持领域的应用提供了标准化、可复现的数据基础。
当前挑战
该数据集所应对的核心领域挑战在于非洲卫生人力数据的稀疏性与可比性不足,许多国家缺乏系统化的统计报告机制,导致时间序列中存在大量间断与缺失值,且不同来源的数据在统计口径、时区划分上存在显著差异,难以直接用于跨国比较分析。在构建过程中,主要挑战包括:从WHO OData API获取原始数据后需处理不一致的编码体系与多维度分层(如性别、居住地类型),通过严谨的数据清洗与模式对齐确保数值字段的精准解析;同时维护数据集的长期可持续更新机制,以应对WHO数据发布周期的不确定性及非洲国家卫生体系动态演变带来的结构性变化。
常用场景
经典使用场景
在公共卫生与卫生人力规划领域,该数据集的核心应用在于精准刻画非洲各国国家卫生机构的全职等效人员配置状况。研究者通常利用其包含的2008至2022年纵向面板数据,构建回归模型或分类任务,以探究卫生人力密度与国家疾病负担、卫生支出及政策干预之间的动态关联。数据集以国家-年份为观测单元,提供了数值型点估计与置信区间,使其特别适用于时间序列预测、缺失数据插补以及跨国产出效率比较等经典研究范式。
实际应用
在实际应用层面,该数据集为非洲各国卫生部门的决策支持系统提供了不可或缺的数据基石。世界卫生组织区域办事处及各国卫生部可据此进行基准对标,识别本国卫生人力在区域内的相对地位与发展短板。同时,国际发展机构与慈善组织可利用这些信息优化援助资源的配置,将资金与技术优先投向人力缺口最为严重的国家。数据一经接入机器学习管道,还能辅助开发智能预警模型,预测未来人力短缺风险,从而为前瞻性卫生人力规划提供科学依据。
衍生相关工作
作为Electric Sheep Africa统一数据生态的组成部分,该数据集催生了若干重要的衍生性工作。其一致的模式设计使得跨指标联合分析成为可能,研究者可将其与同一来源的其他卫生指标(如结核病通报率、抗逆转录病毒治疗覆盖率)无缝融合,开展多维度卫生系统绩效评估。此外,已出现基于该数据集的基准测试工作,用于评价各类统计插补方法在稀疏面板数据上的表现。这一数据资产也促进了非洲本土化机器学习基准的发展,为低资源环境下数据驱动的研究范式提供了可复现的实证基础。
以上内容由遇见数据集搜集并总结生成



