electricsheepafrica/africa-who-domestic-expenditure-on-malaria
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-domestic-expenditure-on-malaria
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标疟疾国内支出(MALARIA_NMCP_CALCULATIONS)在非洲国家的国家级观察数据,时间跨度为2015年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖45个非洲国家,总行数为440行,地区筛选为WHO AFRO(ParentLocationCode = AFR)。数据结构包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间边界、显示字符串、维度类型和值等列。
This dataset contains country-level observations for the WHO GHO indicator Domestic Expenditure on Malaria (MALARIA_NMCP_CALCULATIONS) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 45 African nations with a total of 440 rows, filtered by WHO AFRO region (ParentLocationCode = AFR). The schema includes columns such as indicator_code, country_iso3, who_region, year, value_numeric, value_low, value_high, value_display, dim1_type, dim1, dim2_type, dim2, and last_updated.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家在疟疾防控方面的国内支出情况。原始数据经过系统化提取与封装,以Parquet文件格式存储,确保了数据的高效读取与一致性。构建过程中,所有数值均采用精度较高的浮点数字段(NumericValue),而非显示字符串,从而为机器学习任务提供了精确的数值基础。同时,数据集保留了置信区间上下界信息,便于后续的不确定性分析与模型校准。数据覆盖2015至2024年间45个非洲国家的年度观察值,共计440条记录,属于小型但聚焦的非洲区域数据集。
特点
本数据集的一大特色在于其针对非洲地区疟疾国内支出的专项性,指标代码为`MALARIA_NMCP_CALCULATIONS`,无额外的子维度分层,每个国家-年份组合对应单一数值。这在简化数据结构的同时,也使得模型训练时无需处理复杂的维度筛选。此外,数据集以ISO国家代码标识地理实体,并统一采用AFR作为WHO区域编码,增强了与其他非洲健康数据集的可联合分析能力。列中包含的置信区间数据为风险评估提供了量化支持,而时间跨度的十年覆盖使得趋势分析与预测建模成为可能。
使用方法
使用该数据集时,可通过HuggingFace的`datasets`库直接加载,如`load_dataset('electricsheepafrica/africa-who-domestic-expenditure-on-malaria')`,随后将其转换为Pandas DataFrame以便进行常规的数据探索与预处理。对于需要关注全国层面的分析任务,可通过过滤`dim1`字段为空或以`_BTSX`结尾的行来仅保留两性合计数据。若研究人员希望聚焦特定国家的时间序列分析,只需按`country_iso3`字段筛选并排序`year`列即可。此数据集特别适用于构建回归模型预测疟疾支出趋势,或作为分类任务中表征国家卫生投入状况的特征输入。
背景与挑战
背景概述
疟疾作为撒哈拉以南非洲地区长期面临的重大公共卫生挑战,其防控资源的有效配置依赖于对国内卫生支出的精确监测。世界卫生组织全球卫生观察站(WHO GHO)于2024年发布的“非洲疟疾国内支出”数据集,由Electric Sheep Africa团队重新整理并公开,旨在提供2015至2024年间45个非洲国家在疟疾防控方面的国内财政投入数据。该数据集以统一、机器学习友好的Parquet格式呈现,核心指标为“国内疟疾支出”(MALARIA_NMCP_CALCULATIONS),为评估各国疟疾防控财政可持续性、分析投入与流行趋势关系提供了关键数据基础,对全球卫生治理与资源分配研究具有重要参考价值。
当前挑战
该数据集所应对的领域挑战在于,撒哈拉以南非洲各国卫生财政数据长期存在记录口径不一、时间序列断裂与公开透明度不足等问题,制约了跨国比较与政策模拟的准确性。在构建过程中,挑战主要体现在:原始WHO GHO数据通过OData API获取,需统一不同时期的变量定义与缺失值处理规则;440条记录仅覆盖有限国家与年份,且置信区间(value_low/value_high)信息不完整,限制了不确定性量化分析的深度;此外,部分指标可能存在分层变量(如性别、城乡)导致的数据稀疏性,给机器学习建模中的特征工程与样本均衡带来额外困难。
常用场景
经典使用场景
该数据集收录了2015至2024年间45个非洲国家在疟疾防治方面的国内支出数据,涵盖440条观测记录,来源于世界卫生组织全球卫生观察站。其最经典的使用场景是作为面板数据,用于分析非洲各国疟疾防控投入的时间演变趋势和跨国差异。研究者可借助该数据集构建时间序列模型或回归分析,探索国内支出与疫情控制效果之间的动态关联,为公共卫生经济学研究提供坚实的数据基础。
衍生相关工作
围绕该数据集衍生的经典工作包括对非洲疟疾防治国内支出与外部资助之间交互效应的计量分析,以及利用机器学习方法预测未来支出趋势的研究。此外,已有学者将其与疟疾发病率、耐药性监测等数据集关联,构建综合性的疾病负担与资金流动图谱。世界卫生组织发布的《世界疟疾报告》中亦引用了类似数据来源,为全球疟疾防控目标的进展评估提供了量化支撑,推动了健康指标标准化与开放数据运动在非洲的深入发展。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区疟疾防控的国内卫生支出动态,为评估全球疟疾消除战略的资金缺口与资源分配效率提供了关键量化依据。近期研究前沿融合了时序预测模型与空间流行病学方法,利用2015至2024年间45个非洲国家的面板数据,探索支出模式与疟疾发病率、干预覆盖率之间的非线性关联。特别是在WHO非洲区域经费管理透明度提升与全球基金再分配等热点议题下,该数据的置信区间字段为贝叶斯不确定性分析注入新动能,助力构建更稳健的公共健康财政预警系统。通过规范化Parquet格式与ML-Ready架构,它弥合了流行病学监测与数据科学之间的鸿沟,推动从描述性统计向因果推断与模拟优化的范式跃迁。
以上内容由遇见数据集搜集并总结生成



