five

electricsheepafrica/africa-who-medical-doctors-hwf0002

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-medical-doctors-hwf0002
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标医生人数(HWF_0002)的国家级观察数据,时间跨度为1985-2024年。它是Electric Sheep Africa系列数据集的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,采用一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Medical doctors (number)" (`HWF_0002`) across African nations, spanning 1985–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在非洲卫生人力资源宏观监测领域,世界卫生组织全球卫生观察站(WHO GHO)提供了关键指标数据。本数据集聚焦于“医疗从业者数量”(HWF_0002),通过直接调用WHO GHO的OData API获取原始观测值,并以Parquet格式重新封装,形成具有一致模式的机器学习就绪数据集。数据涵盖了1985至2024年间47个非洲国家的年度观测记录,共计586行,所有数值均源自精确浮点型字段NumericValue,而非显示字符串,同时保留了置信区间边界值(value_low、value_high),确保统计严谨性。
特点
该数据集以国家-年份为唯一粒度,无额外子维度分层,每一行对应单一的观测值,为纵向比较与跨域分析提供了纯净的时间序列结构。其模式设计兼顾了机器学习的可操作性,包含indicator_code、country_iso3、who_region、year等核心列,以及value_numeric作为主要回归目标,并辅以value_display字符串与置信区间。AFRO区域过滤确保了数据的地域聚焦性,且通过WHO官方开放数据许可(CC BY 4.0)发布,兼具权威性与可复用性。
使用方法
借助Hugging Face datasets库可便捷加载该数据集,只需一行代码即可获取训练集格式的Pandas DataFrame。针对全国性总计数而非分层统计的需求,可通过过滤dim1列(例如筛选以_BTSX结尾或为空的行)来实现。进一步地,按country_iso3列筛选特定国家(如KEN对应肯尼亚),并利用sort_values按年份排序,即可提取该国的时间序列数据,为回归建模、趋势预测或卫生政策分析提供直接输入。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据整理而成,聚焦非洲47个国家在1985至2024年间执业医师数量的年度观测值。作为非洲统一、机器学习就绪数据集系列的一部分,其核心研究问题在于填补非洲大陆卫生人力资源数据的结构化与可计算性空白,为区域卫生系统评估、政策制定及国际比较提供标准化基础。该数据集以Parquet格式提供,内含点估计与置信区间字段,并采用一致的列式架构,显著降低了研究者访问与整合多源卫生数据的门槛,对推动非洲卫生计量经济学、流行病学建模及联合国可持续发展目标(SDG 3)监测具有重要支撑作用。
当前挑战
该数据集所应对的领域挑战在于非洲卫生人力资源数据长期存在的碎片化与不透明问题,阻碍了跨国家、跨时间序列的可靠分析与预测建模。具体而言,各国统计口径、数据采集周期与报告质量参差不齐,导致原始数据缺失值频发且不确定性较高;研究人员需处理多维度分层(如性别、城乡)与汇总值之间的关系,以及置信区间边界的不一致性。在构建过程中,团队需从WHO OData API中提取并清洗原始数据,解决字段命名不统一、数值精度的转换风险以及元数据版本冲突等问题,确保最终数据集在保持原始出处权威性的同时,实现高效的机器学习流水线集成。
常用场景
经典使用场景
该数据集收录了1985年至2024年间47个非洲国家的医生数量统计数据,是研究非洲地区医疗卫生人力资源分布与变迁的珍贵资源。典型使用场景包括对医生密度的时序变化进行纵向分析,构建跨国比较模型以揭示不同国家间医疗资源配置的悬殊差距,或者作为预测医疗系统承载力的基础特征。研究者常利用其提供的点估计值与置信区间,评估数据质量并开展稳健性检验,确保结论的可信度。
实际应用
在实际应用中,该数据集助力国际卫生组织与非政府机构精准识别医疗人力匮乏的高危地区,从而优化人道主义援助的资源配置。各国卫生部门可借助历史趋势数据制定短中长期医生培养与留用政策,例如评估医学教育扩招计划的潜在效果。此外,数据驱动的决策支持系统可将其整合进非洲卫生人力流动模型中,预测脑力流失对薄弱卫生体系的持续冲击,并设计针对性干预方案。
衍生相关工作
基于该数据集衍生出一系列经典研究,包括利用面板数据模型探究医生数量与疟疾、结核病等传染病死亡率之间的量化关系,以及运用机器学习方法预测2030年非洲医生短缺的时空分布。部分工作将该数据与教育投入、经济水平等多源数据融合,分析医疗人力资源的长期驱动因素。还有研究借助置信区间信息,评估非洲各国在实现世界卫生组织《2030年可持续发展议程》卫生人力目标方面的进展与瓶颈。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务