five

electricsheepafrica/africa-who-out-of-pocket-expenditure-as-percentage-of-current-health

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-out-of-pocket-expenditure-as-percentage-of-current-health
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标个人自付医疗支出占当前医疗支出百分比(GHED_OOPSCHE_SHA2011)在非洲国家的国家级观察数据,时间跨度为2000年至2023年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Out-of-pocket expenditure as percentage of current health expenditure (CHE) (%) (GHED_OOPSCHE_SHA2011) across African nations, spanning 2000–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区。构建过程中,原始数据被重新整合为具有统一模式的Parquet格式文件,所有数值均直接提取自浮点精度的NumericValue字段,而非显示字符串。数据集包含2000年至2023年间47个非洲国家的观测数据,共计1101条记录,并沿用了WHO AFRO区域划分标准。针对每个国家与年份的组合,数据集仅提供单一数值,无额外子维度分层。若存在置信区间信息,则同时提供上下限值,以增强数据完整性。
特点
该数据集的核心特点在于其针对非洲区域卫生经济指标的专一性与标准化。指标“自付医疗支出占当前卫生支出百分比”直接反映了居民个人医疗负担水平,对于评估卫生系统筹资公平性具有关键意义。数据收录了47个非洲国家的长期年度序列,覆盖24年跨度,为时间序列分析与跨国比较提供了坚实基底。此外,数据集已预先过滤为WHO非洲区域,并采用一致的ISO国家代码与指标编码,显著降低了数据清洗成本,使其成为机器学习就绪的高质量存储库。
使用方法
数据集的使用极为便捷,可通过HuggingFace的datasets库直接加载,调用load_dataset函数即可将数据载入并转换为Pandas DataFrame进行后续分析。为聚焦国家级整体趋势,用户可通过筛选dim1字段中缺失值或以_BTSX结尾的条目,快速提取两性合计的全国层面数据。同时,支持按国家代码进行子集划分,如筛选特定国家的数据并按年份排序以构建时间序列。数据集同时适用于分类与回归任务,其清晰的字段结构便于直接融入预测模型或统计分析流程。
背景与挑战
背景概述
在全球卫生健康治理的宏观图景中,医疗费用自付比例(Out-of-pocket expenditure as % of current health expenditure)是衡量卫生系统财务风险保护能力的核心指标,直接关联到联合国可持续发展目标中关于全民健康覆盖的进程评估。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2023年发布,并由Electric Sheep Africa团队整理为机器学习就绪格式,覆盖2000年至2023年间47个非洲国家的1,101条观测记录。其核心研究问题聚焦于非洲大陆卫生筹资结构的动态演变,尤其是自付费用在卫生总支出中的占比变化,为区域卫生政策制定、跨国比较研究及预测模型构建提供了关键基础数据。作为非洲卫生经济领域为数不多的结构化时间序列数据集,它极大地促进了计算社会科学与公共卫生的交叉研究,对理解非洲国家卫生筹资脆弱性、评估保险政策效果及优化资源配置具有深远影响。
当前挑战
该数据集面临的挑战首先体现在领域问题的复杂性上:自付医疗费用比例受多重社会经济因素交织影响,如人均收入、保险覆盖率、卫生服务可及性及政治稳定性等,需在数据稀缺的非洲背景下构建鲁棒的因果推断框架。其次,构建过程中遭遇的技术挑战包括:原始WHO API数据需处理不一致的编码格式、缺失的置信区间值(部分观测缺少value_low与value_high)以及时间序列非平衡性(部分国家早期年份数据缺失)。此外,数据集的单一性(无亚维度分层)限制了精细化的城乡或性别差异分析,而跨国的汇率波动与通胀调整需求进一步增加了模型泛化的难度。这些挑战共同要求研究者采用先进的缺失值插补、时间序列对齐以及多源数据融合技术,以实现对非洲卫生筹资动态的精准建模。
常用场景
经典使用场景
该数据集聚焦于非洲各国自付医疗支出占经常性卫生支出(CHE)的百分比,是衡量医疗可负担性与全民健康覆盖进程的核心指标之一。基于WHO全球卫生观察站(GHO)的官方数据,覆盖2000年至2023年间47个非洲国家的年度观测值,呈高度结构化的面板数据形态。经典使用场景包括时间序列分析,用于追踪单一国家自付比重的演变轨迹;跨区域比较研究,以揭示非洲不同国家在医疗筹资风险保护上的差距;以及与其他健康或经济指标进行回归建模,以探讨卫生筹资结构对健康结果的影响。其统一的数据格式与缺失值处理方式,使其特别适合作为机器学习模型的输入,支持回归或分类任务。
解决学术问题
这一数据集为学术研究提供了解决多个关键难题的重要工具。其一,它助力量化分析自付医疗支出对家庭经济风险保护的侵蚀程度,从而揭示非洲国家在实现全民健康覆盖(UHC)目标过程中的财政脆弱性。其二,通过纵向数据,学者可评估卫生筹资政策改革(如引入社保或减免费制度)对自付比例的实际调控效果,填补了政策评估中数据可及性不足的空白。其三,将本数据集与疾病负担、贫困率等外部面板数据相融合,能够构建多变量因果推断模型,探讨卫生支出结构与社会健康公平之间的复杂关联。其意义在于为资源匮乏地区提供可比较的基线和趋势判断,推动全球卫生治理从经验描述向数据驱动的精准干预转型。
衍生相关工作
围绕该数据集已衍生出一系列具有影响力的学术与工程工作。在学术领域,研究者常将其与GHO其他指标(如政府卫生支出占比、人均卫生支出)组合,构建卫生筹资可持续性指数,被多篇发表于《Globalization and Health》与《BMC Public Health》的论文引用。在工具链层面,Electric Sheep Africa团队基于该数据开发了统一的非洲卫生数据流水线,实现了从ODA API原始抓取到特征对齐、置信区间编码的自动化流程,显著降低了多源融合中的模式冲突问题。此外,部分Kaggle竞赛参与者以此数据为特征集,训练回归模型预测妊娠期保健覆盖率等下游健康结局,验证了跨指标迁移学习的可行性。这些工作不仅提供了延展分析的起点,也形成了可复现的同行评议基准。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务