five

electricsheepafrica/africa-who-skilled-health-professionals-density

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-skilled-health-professionals-density
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2005年至2016年间WHO GHO指标熟练卫生专业人员密度(每10,000人口)(SDGSHP)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Skilled health professionals density (per 10 000 population) (SDGSHP) across African nations, spanning 2005–2016. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,针对非洲地区精心整理而成。数据涵盖2005至2016年间40个非洲国家的关键健康指标——每万人口熟练卫生专业人员密度(SDGSHP)。所有观测值均直接提取自API返回的浮点精度数值字段NumericValue,而非显示字符串,确保了数据的精确性与一致性。同时,数据集保留了置信区间上下限,为后续分析提供了统计支撑。最终以Parquet格式统一封装,形成了这一机器学习就绪的非洲健康数据集。
特点
该数据集的核心特点在于其简洁而结构化的设计。共包含52条观测记录,每一条代表特定国家与年份的组合,无其他亚维度分层,便于直接用于时间序列或回归分析。数据模式清晰,涵盖指示代码、国家ISO3代码、WHO区域、年份、数值及置信区间等关键字段,并附带数据更新时间戳。此外,数据集来源于WHO官方,遵循CC BY 4.0许可协议,保证了数据的权威性与可复用性。
使用方法
使用时,可借助HuggingFace的datasets库轻松加载为DataFrame格式,示例代码为`load_dataset("electricsheepafrica/africa-who-skilled-health-professionals-density")`。通过筛选dim1和dim2字段,可以获取特定人口亚组(如两性总计或城乡)的数据,或直接聚合所有记录以开展整体分析。对于国家层面的时间序列研究,只需按年份排序并过滤特定国家ISO3代码即可。该数据集特别适用于非洲健康劳动力分布的建模与趋势预测任务。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织(WHO)全球卫生观察站(GHO)的开放数据重新整理而成,聚焦于非洲地区熟练卫生专业人员密度(每万人口)这一关键指标。数据覆盖2005年至2016年间40个非洲国家,共计52条观察记录,旨在为机器学习与统计分析提供统一、可直接使用的结构化数据资源。熟练卫生专业人员密度是衡量卫生系统服务能力与可持续发展目标(SDG)进展的核心指标,直接关联全球卫生人力规划与政策评估。该数据集的创建填补了非洲地区卫生人力数据在机器学习领域的标准化空白,为研究者、政策制定者及数据科学家提供了便捷的工具,以探索区域差异、时间趋势及健康结果之间的关联,从而推动基于证据的卫生决策。
当前挑战
该数据集所解决的领域问题聚焦于非洲地区熟练卫生专业人员匮乏与分布不均的困境,这一挑战直接影响初级卫生保健的可及性与全民健康覆盖的实现。构建过程中面临多重困难:首先,原始数据来自WHO GHO的OData API,需处理不同数据表之间的格式差异与缺失值,确保数值字段的精确提取而非字符串显示值;其次,非洲各国卫生信息系统发展水平不一,导致数据稀疏且时间序列不完整(仅2005–2016年),部分国家与年份存在数据空缺;此外,数据包含置信区间等辅助字段,需妥善保留以支持后续的统计推断与不确定性分析,同时保持模式一致以利于机器学习管道集成。
常用场景
经典使用场景
该数据集以世界卫生组织全球卫生观察站为源头,精心整理了2005年至2016年间非洲40个国家每万人口中熟练卫生专业人员密度的宏观指标。其核心应用场景在于构建时序回归与分类模型,用以追踪和预测非洲大陆卫生人力配置的动态演化趋势。研究者可借助该数据集中包含的点估计值及其置信区间,开展跨国的纵向对比分析,深入剖析不同国家在卫生人力供给层面的差异与共性,从而为区域卫生系统评估提供量化支撑。
解决学术问题
该数据集的问世有效破解了非洲卫生人力数据碎片化、非标准化与获取门槛高的学术困境。它系统性地解决了两个关键研究瓶颈:一是为验证卫生人力密度与健康结果(如孕产妇死亡率、传染病控制效果)之间的关联假设提供了可靠的基础数据;二是为评估联合国可持续发展目标中关于全民健康覆盖的具体指标进展,尤其是追踪非洲各国在卫生人力建设方面的成效与差距,构建了可重复、可验证的数据基准。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于两个方面:一是基于时序模型的卫生人力预测研究,学者们利用数据集中的多年观测值,结合社会经济变量(如GDP、教育支出),训练诸如ARIMA、LightGBM等模型以预测未来五年非洲各国的卫生专业人员密度;二是不平等性度量研究,研究者通过计算各国密度值的基尼系数与泰尔指数,量化非洲内部卫生人力分布的悬殊程度,相关成果被多次引用于《柳叶刀》全球健康专刊关于卫生系统公平性的专题论述中,推动了该领域的计量方法论进步。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务