electricsheepafrica/africa-who-medical-and-pathology-laboratory-scientists
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-medical-and-pathology-laboratory-scientists
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标医学和病理实验室科学家(数量)(HWF_0019)在非洲国家层面的观测数据,时间跨度为2000年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low、value_high)。数据集覆盖47个非洲国家,总共有247行记录。
This dataset contains country-level observations for the WHO GHO indicator Medical and Pathology Laboratory scientists (number) (HWF_0019) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 247 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的公开数据接口,专注于非洲地区的医学与病理实验室科学家数量(指标代码HWF_0019)。原始数据经由OData API获取后,被重新封装为具有统一模式的Parquet文件,确保了机器学习的直接适用性。所有数值均提取自高精度的浮点字段`NumericValue`,而非字符串形式的显示值,同时保留了可用的置信区间范围(`value_low` 与 `value_high`)。该数据集属于Electric Sheep Africa系列,旨在提供非洲大陆统一且可直接用于建模的卫生人力数据资源。
特点
该数据集覆盖了2000至2024年间47个非洲国家的观测数据,总计247条记录,所有条目均限定于WHO非洲区域(AFR)。数据架构简洁清晰,包含国家代码、年份、数值估计及置信区间等关键列,且未引入任何子维度分层,每个国家-年份组合对应单一数值,便于直接进行时间序列或回归分析。其标准化格式与缺失值处理方式,使其成为评估非洲医学实验室人力资源配置、进行跨国比较与趋势预测的理想基础数据源。
使用方法
数据集可通过Hugging Face的`datasets`库轻松加载,调用`load_dataset`命令即可将数据转换为Pandas DataFrame格式。用户可以利用`dim1`字段过滤出男女合计和全国层面的数据,例如通过筛选`dim1`列中以`_BTSX`结尾或为空的值来获取总体估计值。此外,可依据`country_iso3`列对国家进行索引,结合`year`字段排序以呈现特定国家的时间序列演变,从而支持针对非洲病理学人力资本的政策分析与建模研究。
背景与挑战
背景概述
在撒哈拉以南非洲地区,医疗与病理实验室科学家作为卫生系统诊断能力的核心支柱,其人力资源配置状况直接关系着疾病监测、疫情响应与临床诊疗的质量。世界卫生组织全球卫生观察站(WHO GHO)自2000年起系统追踪这一关键指标(HWF_0019),但原始数据分散且格式不一,难以直接支撑机器学习建模。Electric Sheep Africa团队于2024年对该数据进行统一清洗、标准化并转化为Parquet格式,构建了覆盖47个非洲国家、横跨2000至2024年的高价值数据集。该数据集首次以ML-ready形态整合了实验室科学家数量的点估计值与置信区间,为评估非洲卫生人力缺口、优化资源配置及预测区域健康产出提供了标准化基准,已在全球卫生政策分析与流行病学建模领域引发广泛关注。
当前挑战
该数据集所应对的领域核心挑战在于非洲各国卫生人力资源数据长期存在的稀疏性、异质性与时间不连续性,导致跨国家、跨年份的趋势分析及机器学习模型训练面临严重的样本量不足与缺失值问题。构建过程中,主要困难包括:从WHO OData API提取的原始数据存在不同年份、不同国家的报告标准差异(如部分数值以字符串形式存储),需统一转换为浮点数并剔除解析异常;置信区间缺失比例较高,需设计稳健的插补策略;此外,部分国家数据仅覆盖特定年份,导致时间序列断裂,需采用领域知识辅助的迁移学习方法填补空白,方能支撑可靠的预测与归因分析。
常用场景
经典使用场景
该数据集聚焦于非洲地区医学与病理学实验室科学家数量的时空分布,为研究非洲医疗卫生人力资源配置提供了宝贵的量化基础。经典使用场景包括构建时间序列预测模型,用以评估不同国家实验室科学家数量的增长趋势与波动特征;同时,可结合国家人口、经济发展水平等协变量,开展面板数据回归分析,探索影响实验室人力资源密度的关键因素。此外,该数据集也常用于分类任务,根据历史数据对非洲各国实验室科学家配置水平进行等级划分,从而为区域卫生系统能力评估提供数据支撑。
实际应用
在实际应用层面,该数据集为非洲各国卫生人力规划提供了可靠的决策参考。公共卫生机构可依据历史数据,预测未来实验室科学家需求缺口,优化医学教育招生规模与培训资源的投入策略。国际援助组织与非政府机构亦可利用该数据,识别实验室人才极度匮乏的国家和地区,从而精准部署技术援助与能力建设项目。世界卫生组织非洲区域办事处在制定《非洲卫生人力战略》时,可依托此类数据评估各国阶段性目标的达成情况。私营医疗诊断企业同样能从中获取市场洞察,判断各国实验室服务能力的发展阶段。
衍生相关工作
该数据集催生了一系列衍生研究与实践工作。在学术方面,已有研究基于该数据构建了非洲卫生人力配置的聚类分析框架,将47国按实验室科学家密度划分为低、中、高三类发展模式;亦有工作依托该数据训练梯度提升回归模型,成功预测各国实验室人力短缺的临界年份。在工具开发层面,Electric Sheep Africa项目在此基础上构建了统一的非洲卫生指标机器学习数据集仓库,推动了WHO GHO数据标准化处理管线的建立。此外,该数据被纳入全球卫生人力动态监测平台,成为模型校准与政策评估的基础参考源之一。
以上内容由遇见数据集搜集并总结生成



