electricsheepafrica/africa-who-total-number-of-malaria-cases
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-total-number-of-malaria-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2015年至2024年间WHO GHO指标“疟疾总病例数(疑似+确诊病例)”(`MALARIA_TOTAL_CASES`)的国家级观测数据。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Total number of malaria cases (presumed + confirmed cases)" (`MALARIA_TOTAL_CASES`) across African nations, spanning 2015–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区疟疾总病例数(包括疑似与确诊病例)这一关键健康指标。数据经过系统化清洗与重构,以Parquet格式存储,保持统一的字段架构。所有数值均来自原始API中的浮点精度字段NumericValue,并附带了置信区间上下界数据(value_low与value_high),以支撑更严谨的统计分析。最终汇聚成覆盖45个非洲国家、时间跨度为2015至2024年的442条观测记录,形成了一个面向机器学习就绪的可靠数据集合。
使用方法
使用过程极为便捷,兼容Hugging Face datasets库。用户可通过load_dataset函数直接加载数据集,并一键转换为Pandas DataFrame进行深度操作。对于全国性分析,建议依据dim1字段筛选以‘_BTSX’结尾或为空的数据,排除性别分层。如需研究特定国家的时间走势,例如肯尼亚,只需按ISO代码‘KEN’过滤并按年份排序即可。数据集同时适用于分类与回归任务,无论是预测确诊病例数,还是评估防治效果,均能灵活调用,充分满足公共卫生领域的建模需求。
背景与挑战
背景概述
疟疾作为非洲大陆最严峻的公共卫生威胁之一,每年导致数十万死亡病例,对区域经济与社会发展构成深远影响。世界卫生组织(WHO)全球卫生观察站(GHO)自2015年起持续追踪非洲各国的疟疾总病例数(含推定与确诊),该数据集由Electric Sheep Africa团队于2024年整理发布,涵盖45个非洲国家2015至2024年的年度观测数据,提供了统一的机器可读格式(Parquet)与标准化模式。作为首个针对非洲疟疾负担的机器学习就绪数据集,它极大便利了研究者对疾病时空分布、干预效果评估及预测模型的构建,成为连接全球卫生数据与数据科学应用的重要桥梁,推动了数据驱动的疟疾防控决策。
当前挑战
该数据集所应对的领域核心挑战在于非洲疟疾监测数据的碎片化与不完整性。各国报告系统差异、诊断能力参差以及政治动荡等因素导致病例统计存在显著缺失与滞后,使得跨国的可比性分析面临困难。数据集构建过程中,团队需从WHO OData API中提取原始数值而非显示字符串,并处理置信区间(value_low/value_high)的稀疏性——部分年份与国家缺乏此类可靠区间。此外,数据仅包含国家层面年度聚合,缺乏年龄、性别或城乡等亚维度分层(尽管模式支持),限制了精细人群的分析能力。数据更新周期与WHO发布节奏挂钩,也带来时效性挑战,影响实时疫情响应的模型训练需求。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于构建疟疾负担的时空预测模型。凭借其覆盖2015至2024年45个非洲国家的年度疟疾总病例数(包括疑似与确诊病例),研究者可以将其作为回归任务中的目标变量,结合气候、经济或地理特征,训练机器学习模型以揭示疟疾传播的时空动态。同时,其结构化格式支持时间序列分析与趋势外推,是评估干预措施效果和疾病消除进程的经典基准资源。
解决学术问题
该数据集核心解决了非洲疟疾数据碎片化与可比性不足的学术困境。通过整合WHO全球卫生观察站的统一口径数据,它使研究者能够开展跨国界、长时序的疾病负担量化分析,从而澄清疟疾发病率的地理异质性及其演变规律。此外,其提供的置信区间字段为不确定性建模提供了基础,推动了稳健统计方法与贝叶斯推断在传染病流行病学中的应用,提升了预测与政策建议的科学性。
实际应用
在实际应用中,该数据集为非洲各国的公共卫生决策提供了数据底座。国家疟疾控制计划可利用其年度病例数来评估国家战略的阶段性成效,并合理分配诊断试剂与抗疟药物。国际组织如WHO与全球基金则据此追踪区域防控进展,识别高负担地区以优化资源投放。在疫情预警系统中,该数据还可嵌入实时监测体系,辅助识别暴发信号,支持快速响应机制的启动。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区疟疾总病例数(疑似与确诊之和)的时空分布与趋势分析,作为世界卫生组织全球卫生观察站(GHO)的核心指标之一,其覆盖2015至2024年间45个非洲国家的年度观测值,为流行病学建模、疾病负担评估及公共卫生政策制定提供了关键数据支撑。前沿研究方向包括利用机器学习算法(如时序预测、回归分析)基于该数据集构建疟疾传播动态模型,并结合气候、人口流动等协变量探究影响病例波动的深层驱动因素。此外,伴随全球抗击疟疾的2030年目标推进,该数据集在评估干预措施成效、识别高风险区域及优化资源分配方面具有显著意义,尤其助力非洲区域卫生机构实现数据驱动的精准防控策略。
以上内容由遇见数据集搜集并总结生成



