electricsheepafrica/africa-who-health-services-provision
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-health-services-provision
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2021年至2023年期间的WHO GHO指标Health services provision(IHRSPAR2_C08)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件的形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Health services provision (IHRSPAR2_C08) across African nations, spanning 2021–2023. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲区域国家在“卫生服务供给”(指标代码IHRSPAR2_C08)方面的表现。Electric Sheep Africa团队对原始数据进行系统性清洗与重构,将原始数值字段(NumericValue)作为核心定量指标,并保留置信区间上下界(value_low, value_high)。数据以Parquet格式存储,采用统一的列式模式,涵盖47个非洲国家2021至2023年间的观测记录,共计141条,确保数据集的机器学习就绪性。
特点
该数据集的核心特征在于其简洁且标准化的结构。每个观测值对应一个国家与年份的唯一组合,无额外子维度分层,避免了多维嵌套带来的复杂性。数据包含完整的元信息,如指标代码、国家ISO3代码、WHO区域编码及更新时间戳。尤为重要的是,数据集同时提供数值型点估计与格式化显示字符串,为不同分析需求提供灵活接口。缺失的置信区间边界被妥善标记,保障了统计推断的准确性。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,使用load_dataset函数即可获取训练集,并支持无缝转换为Pandas DataFrame进行分析。典型应用场景包括筛选全国层面的双性别人群数据(通过dim1字段的BTSX后缀或空值判断),以及按国家进行时间序列分析,如通过排序年份字段提取肯尼亚的历年变化。数据集适用于分类与回归两类机器学习任务,为非洲卫生政策建模提供了可靠的数据基础。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,由Electric Sheep Africa团队于2023年重新打包并发布在HuggingFace平台上,聚焦于非洲国家2021至2023年间卫生服务提供能力的量化评估。其核心研究问题在于通过标准化指标(IHRSPAR2_C08)监测非洲地区卫生系统在基础医疗服务覆盖、应急响应及持续运营方面的表现,弥补了传统非洲卫生数据碎片化、格式不统一的研究缺口。作为首个以机器学习就绪格式(Parquet)提供的非洲区域卫生服务数据集合,该数据集为流行病学建模、卫生政策评估及跨境健康不平等分析提供了关键基础,推动了数据驱动型公共卫生决策在非洲大陆的落地。
当前挑战
该数据集面临的领域挑战在于,非洲卫生服务提供指标受限于稀疏且不均衡的监测网络——47国仅141条观测值,导致模型难以捕捉沙哈拉以南地区独特的城乡、性别及冲突区域的服务差异,而WHO原始数据的分层维度(如居住地类型、性别)在聚合后进一步压缩了细粒度表征能力。构建过程中则需解决多重数据异构难题:OData API返回的置信区间与点估计值存在不一致性,需通过NumericValue字段强制对齐;各国历史数据的时间戳与更新频率差异导致跨年可比性下降;此外,ISO3国家代码与WHO区域编码的映射校验、缺失的次国家级空间坐标以及Parquet格式对非结构化元数据的兼容性限制,均要求额外的清洗与注入逻辑以维持机器学习的可复现性。
常用场景
经典使用场景
非洲作为全球卫生挑战最为严峻的区域之一,其卫生服务供给能力的量化评估始终是国际公共卫生研究的热点。该数据集汇集了世界卫生组织全球卫生观察站(WHO GHO)发布的非洲47国2021至2023年间卫生服务供给指标(IHRSPAR2_C08),涵盖国家层面的点估计值及置信区间。其典型应用场景在于构建时空维度的面板数据,通过跨国家、跨年份的对比分析,揭示非洲各国在基本卫生服务覆盖、应急响应能力及系统韧性方面的动态演变轨迹,为宏观卫生政策评估提供严谨的数据底座。
解决学术问题
该数据集直接回应了非洲卫生系统研究中长期存在的‘数据稀疏性’与‘可比性缺失’双重困境。通过提供标准化的数值型指标及配套的置信区间,它使得学者得以开展跨国的卫生服务供给效率测度、卫生系统脆弱性归因分析以及新冠疫情后恢复进程的定量追踪。其意义在于弥合了全球卫生治理中从定性描述到计量建模的鸿沟,尤其为非洲区域卫生协同机制的效能检验、国际卫生条例(IHR)核心能力达标率的实证研究提供了关键证据链,推动了循证决策在非洲大陆的落地。
衍生相关工作
基于此数据源已衍生出一系列开创性学术工作。在机器学习和公共健康交叉领域,有研究者将其与非洲大陆的疾病负担数据(如疟疾或艾滋病感染率)进行联合分析,采用贝叶斯分层模型识别卫生服务供给不足的热点区域;另一部分工作则聚焦于数据修复与增强——利用该数据集提供的置信区间估计,开发适用于稀疏面板数据的多任务学习框架。此外,Electric Sheep Africa团队基于该数据构建的统一ML-Ready仓库范式,本身就是一项重要的基础设施性贡献,降低了后续研究者复现和扩展工作的技术门槛。
以上内容由遇见数据集搜集并总结生成



