five

electricsheepafrica/africa-who-population-with-household-spending-on-health-greater-than-tatot10pop

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-population-with-household-spending-on-health-greater-than-tatot10pop
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1985年至2021年间,世界卫生组织全球健康观察站(WHO GHO)指标“家庭健康支出占家庭总预算10%以上的人口比例(SDG 3.8.2,报告数据)(%)”(`FINPROTECTION_CATA_TOT_10_POP`)的国家级观察数据。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察站OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集覆盖44个非洲国家,总行数为1,071行,并包含多个子维度,如年龄组、家庭组成、居住地区类型和性别等。

This dataset contains country-level observations for the WHO GHO indicator "Population with household spending on health greater than 10% of total household budget (SDG 3.8.2, reported data) (%)" (`FINPROTECTION_CATA_TOT_10_POP`) across African nations, spanning 1985–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 44 African nations with a total of 1,071 rows and includes sub-dimensions such as age group, household composition, residence area type, and sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区家庭卫生支出占家庭总预算超过10%的人口比例(SDG 3.8.2指标)。研究者从原始API中提取了浮点精度的数值字段(NumericValue),而非显示字符串,并辅以置信区间上下限(value_low、value_high)以确保数据严谨性。所有观测值被重新封装为Parquet文件格式,形成统一的机器学习友好型模式。数据覆盖44个非洲国家,时间跨度从1985年至2021年,共计1071条记录,并依据WHO AFRO区域代码(ParentLocationCode = 'AFR')进行过滤筛选。
特点
该数据集的显著特征在于其多维分层结构,涵盖了年龄组(AGEGROUP)、家庭代际构成(HOUSEHOLD_COMP_BY_AGE)、居住区域类型(RESIDENCEAREATYPE)以及性别(SEX)等多个子维度。当指标被分层报告时,每个国家、年份与维度的独特组合均生成独立行记录,支持精细化分析。数据集还提供了置信区间信息,有助于评估估计值的不确定性。所有数据均遵循CC BY 4.0许可协议,确保公开可用的同时尊重原始数据版权。
使用方法
使用该数据集时,可通过HuggingFace的datasets库快速加载,调用load_dataset方法即可获取训练集,并转换为Pandas DataFrame格式进行后续操作。研究者需注意过滤维度字段,例如通过筛选dim1列中以'_BTSX'结尾的字符串或缺失值来获取两性合并的国家级数据。针对特定国家的时间序列分析,可按country_iso3列过滤并结合year列排序。如需研究特定子群体(如农村或城市区域),则需利用dim1和dim2列进行精细分层筛选,确保分析结果的针对性。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的公开数据,聚焦于衡量非洲国家中家庭卫生支出占家庭总预算超过10%的人口比例,即可持续发展目标(SDG)指标3.8.2的监测值。数据涵盖1985至2021年间44个非洲国家的1,071条观测记录,并提供了按年龄、性别、居住地类型及家庭构成等维度分层的子指标。作为机器学习友好型数据集,其统一Parquet格式与标准化的字段设计显著降低了非洲卫生经济数据在预测建模与政策分析中的应用门槛,为研究灾难性卫生支出在非洲大陆的分布规律及演化趋势提供了关键数据基础。
当前挑战
该数据集所应对的核心挑战在于量化非洲地区家庭因卫生支出陷入经济困境的程度,进而服务于SDG 3.8.2的全球监测与卫生筹资政策评估。然而,数据构建面临多重困难:首先,各国统计能力差异导致部分国家年份数据缺失,且置信区间字段在约半数记录中为空,限制了不确定性建模的精确性;其次,分层维度(如年龄、城乡)的组合方式复杂,不同维度间取值相互关联,需谨慎处理以避免统计偏差;最后,来自WHO OData API的原始数据需经格式统一、缺失值标识及多级索引重构等清洗流程,方能生成适用于机器学习流水线的结构化表格数据。
常用场景
经典使用场景
该数据集聚焦于非洲国家家庭卫生支出占家庭总预算超过10%的人口比例,是监测可持续发展目标3.8.2(财务风险保护)的核心指标。经典使用场景包括:基于时间序列分析非洲各国在1985至2021年间因灾难性卫生支出导致财务困境的演变趋势;通过性别、年龄组(如60岁以上与60岁以下)、居住地类型(城市、农村)等子维度进行分层分析,揭示弱势群体面临的差异化财务风险;以及利用置信区间数据进行不确定性量化,评估国家卫生筹资体系的稳健性。
实际应用
在实际应用中,该数据集可服务于多类场景:政府和国际组织(如WHO、世界银行)利用其评估国家卫生筹资绩效,调整补贴与保险政策;非政府组织借助分层数据识别高风险群体(如农村老年女性),设计针对性财务保护项目;学术机构则将其作为输入,训练机器学习模型以预测卫生支出风险,或结合经济、人口变量构建预警系统。此外,通过与其他健康指标(如疾病负担)关联分析,可揭示卫生支出与健康结局的交互作用,为资源分配优化提供数据驱动支持。
衍生相关工作
该数据集衍生了多项经典工作:一是作为Electric Sheep Africa统一数据仓库的核心组件,与其他非洲健康数据集(如疾病发生率、卫生服务可及性)整合,支持多变量因果推断;二是催生了基于时空图神经网络的灾难性卫生支出预测模型,通过捕捉国家间经济依赖关系提升预测精度;三是推动了公平性评估框架的构建,如融合性别、城乡维度计算健康财务风险集中指数;此外,其与WHO全球健康观察站原始数据的对比分析,验证了数据重封装方法对机器学习任务的有效性,为非洲数据标准化提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务