five

electricsheepafrica/africa-who-domestic-general-government-health-expenditure-per-capita

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-domestic-general-government-health-expenditure-per-capita
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“国内一般政府卫生支出(GGHE-D)人均美元值”(GHED_GGHE-D_pc_US_SHA2011)在非洲国家的国家级观察数据,时间跨度为2000年至2023年。这是Electric Sheep Africa集合的一部分,是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Domestic general government health expenditure (GGHE-D) per capita in US$" (GHED_GGHE-D_pc_US_SHA2011) across African nations, spanning 2000–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家“国内政府卫生支出(GGHE-D)人均美元”这一核心指标。原始数据经标准化处理,以Parquet文件格式重新封装,确保数据结构一致且便于机器学习应用。每条观测记录包含国家、年份、数值估计及其置信区间边界,所有数值均采用浮点精度字段,并剔除了显示字符串的冗余信息。数据集覆盖2000年至2023年间47个非洲国家,共计1101行记录,通过WHO AFRO地区代码进行过滤筛选,形成了一个完整且高质量的时序面板数据。
特点
本数据集最显著的特点在于其统一且规范的架构设计。所有字段类型清晰明确,包括指示代码、国家ISO代码、WHO区域、年份、数值估计、置信区间上下界及显示字符串等,便于直接用于回归或分类任务。由于该指标无子维度分层,每个国家-年份组合仅对应一行,避免了数据冗余。此外,数据集中包含了置信区间信息,为不确定性建模提供了宝贵支持。其严格的CC BY 4.0许可和来自权威WHO的原始数据,确保了科学研究的可靠性与可复现性。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集。使用`load_dataset`函数即可获取训练集,并利用`to_pandas`方法转换为DataFrame进行深入分析。为专注于两性全国层面的数据,可过滤`dim1`字段包含`_BTSX`或为空的行。对于特定国家的时间序列研究,例如肯尼亚,可通过筛选`country_iso3`为`KEN`并按年份排序来实现。数据集的Parquet格式和一致模式使其完美兼容主流机器学习工作流,支持快速迭代建模。
背景与挑战
背景概述
在全球公共卫生治理体系中,政府卫生支出是衡量一国健康保障能力与政策优先级的核心指标。世界卫生组织(WHO)全球卫生观察站(GHO)系统性地追踪各成员国卫生财务数据,为国际比较与政策评估提供基准。在此背景下,Electric Sheep Africa团队于2023年整合WHO开放数据,构建了非洲地区国内政府卫生人均支出数据集(GHED_GGHE-D_pc_US_SHA2011),覆盖2000至2023年间47个非洲国家的1101条观测值。该数据集以统一的Parquet格式封装,纳入点估计值与置信区间,旨在为机器学习驱动的非洲卫生经济研究提供标准化、可复用的数据基础。其发布填补了非洲区域高粒度政府卫生支出数据的空白,为学术机构、国际组织及政策制定者提供了从传统统计到数据科学转型的关键资源。
当前挑战
该数据集所应对的领域问题根植于非洲卫生经济学中长期存在的数据挑战:各国政府卫生支出统计口径不一、时间序列不完整,且部分国家因冲突或治理薄弱导致数据缺失,严重制约了区域比较与政策预测的可靠性。此外,传统WHO数据以API或表格形式分布,缺乏针对机器学习的特征工程与结构化处理。在构建过程中,团队面临多重技术挑战:需从异构OData接口解析并标准化47国数据,处理缺失值与置信区间不一致的差异,同时需确保跨年代和国家的维度兼容性,尤其是针对性别、城乡等子维度进行逻辑筛选,以避免数据冗余与分析偏误。最终输出的数据集虽高度可用,但仍需用户在分析时审慎对待数据稀疏性及国家层面的异质性。
常用场景
经典使用场景
在非洲卫生经济与政策研究领域,该数据集作为核心追踪指标,广泛用于分析各国政府卫生支出水平及其时间演变趋势。研究者能够基于47个非洲国家2000年至2023年间的人均国内一般政府卫生支出数据,构建跨国面板数据模型,评估卫生财政投入的规模与结构。其统一、可机读的Parquet格式,配合置信区间字段,极大便利了时间序列回归、聚类分析及卫生系统绩效比较等经典研究范式。
解决学术问题
该数据集有效解决了非洲卫生财政领域长期存在的数据碎片化、口径不统一和获取成本高昂等学术瓶颈。通过提供标准化、长期连续且包含置信区间的人均卫生支出观测值,它使学者能够量化分析政府卫生投入与全民健康覆盖、疾病负担变化之间的关联,检验卫生筹资改革效果,并填补了撒哈拉以南非洲卫生经济实证研究的空白,推动了基于证据的政策科学化。
衍生相关工作
围绕该数据集,衍生了一系列重要的学术与统计工作。例如,它常被用作卫生系统韧性评估的输入变量,研究者结合宏观经济面板数据,探讨卫生支出对疫情冲击的缓冲能力。此外,该数据也是构建非洲卫生支出预测模型、区域不平等测度指数以及卫生效率前沿分析的基础。Electric Sheep Africa项目本身便致力于此类非洲数据集的清洗与标准化,为开源机器学习和因果推断研究奠定了数据基础设施。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务