electricsheepafrica/africa-who-generalist-medical-practitioners
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-generalist-medical-practitioners
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2024年间关于全科医生(数量)的WHO GHO指标的国别观测数据。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并被重新打包为具有一致架构的Parquet文件。所有值都来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low、value_high)。数据集覆盖了46个非洲国家,总共有247行数据。
This dataset contains country-level observations for the WHO GHO indicator Generalist medical practitioners (number) (`HWF_0003`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)的OData接口,聚焦于非洲地区全科医生数量这一关键卫生人力指标(HWF_0003)。构建过程中,原始数据被系统性地抽取并重新封装为Parquet格式文件,统一采用NumericValue字段的浮点精度数值作为核心观测值,同时保留了置信区间上下限(value_low/value_high)等辅助信息。所有记录均按国家、年份和WHO区域(AFRO)进行标准化整理,形成了一致性强的机器学习就绪数据集。
特点
数据集覆盖2000至2024年间的46个非洲国家,共计247条观测记录,每个国家-年份组合仅对应单一数值,无额外子维度分层,结构极为简洁紧凑。其核心优势在于直接以机器可读的Parquet格式存储,并整合了WHO官方浮点精度数据,避免了字符串显示值带来的精度损失。此外,数据集中附带了置信区间与最后更新时间戳,为时序分析与不确定性量化提供了坚实基础,非常适合初学者进行探索性数据分析与回归建模。
使用方法
用户可通过HuggingFace Datasets库快速加载数据,调用load_dataset('electricsheepafrica/africa-who-generalist-medical-practitioners')即可获得Pandas兼容的DataFrame。推荐首先利用dim1字段过滤出“两性合计”(_BTSX)或缺失维度值的全国层面数据,以消除性别或城乡亚层的干扰。随后,可依据country_iso3列筛选特定国家(如KEN代表肯尼亚),并按year排序绘制时间序列趋势图,或直接使用value_numeric列作为回归任务的目标变量进行模型训练。
背景与挑战
背景概述
在全球公共卫生治理的宏大叙事中,卫生人力的可及性与分布始终是评估健康系统韧性的核心指标。非洲大陆作为全球疾病负担最沉重的区域之一,其全科医生数量的精确测度对于理解医疗资源分配、制定国际卫生合作政策具有不可替代的战略价值。由世界卫生组织全球卫生观察站(GHO)创建的“全科医学从业者(数量)”指标(HWF_0003),经Electric Sheep Africa团队于2024年重新封装并发布为机器学习就绪的数据集,覆盖2000至2024年间46个非洲国家的247条观测记录。该数据集以统一架构呈现官方统计数值与置信区间,为区域健康劳动力建模、政策模拟及传染病防控中的资源配置提供了标准化且可复现的数据基础,显著推动了非洲健康大数据研究的可计算性与跨国可比性。
当前挑战
该数据集所解决的领域问题核心在于揭示非洲全科医生数量分布的严重不均衡性,即在宏观层面缺乏精准、连贯的时序数据以支撑健康人力规划,微观层面则因各国医疗记录体系参差不齐而导致数据稀疏性与缺失。构建过程中遭遇多重挑战:首先,WHO原始OData接口的异构性要求对数值型字段与展示字符串进行严格清洗,剔除格式化噪声;其次,46国间数据提交频率与统计口径不一,导致部分年份值缺失率高达30%以上;此外,当指标存在性别或城乡分层时,行级记录需经维度过滤去除冗余变异,增加了自动化管道设计的复杂性。这些挑战不仅要求算法层面的鲁棒插值,更迫使研究者直面非洲医疗信息基础设施的薄弱现实。
常用场景
经典使用场景
在非洲卫生人力研究领域,全科医生数量是衡量初级医疗可及性的核心指标。该数据集提供了2000至2024年间46个非洲国家全科医生人数的年度序列观测,适用于纵向趋势分析、区域卫生人力密度对比以及时序预测建模。借助一致的数值型字段与置信区间信息,研究者可构建稳健的机器学习回归模型,如随机森林或梯度提升树,用于推断卫生人力分布的决定因素,或在未来规划中模拟不同政策干预对医生数量的影响。
实际应用
在实际应用中,该数据集赋能非洲各国卫生部门与跨国组织开展循证决策。通过分析全科医生数量的时序变化,政策制定者可识别卫生人力短缺的热点区域,合理规划医学教育招生规模与国际人才引进策略。非政府组织可利用数据优化援助项目的目标地区选择;国际金融机构则可依据医生密度趋势评估卫生基础设施投资的预期效益。数据以Parquet格式发布并配有Python加载接口,极大降低了机器学习与可视化工具对接的门槛。
衍生相关工作
该数据集的发布催生了一批围绕非洲卫生人力时空建模的衍生研究。相关工作包括使用时序分解方法揭示全科医生数量波动中的结构性趋势与周期成分,以及将医生密度与卫星夜间灯光数据相结合,探究城镇化水平对卫生人力分布的调节效应。此外,基于该数据集构建的预测模型已被用于模拟COVID-19疫情期间各国卫生系统的承载力变化,衍生出的开源代码库与交互式看板进一步降低了复现与扩展研究的门槛,形成了以数据驱动的公共卫生分析生态。
以上内容由遇见数据集搜集并总结生成



