electricsheepafrica/africa-who-number-of-suspected-malaria-cases
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-suspected-malaria-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“疑似疟疾病例数”(`MALARIA_SUSPECTS`)在非洲国家的国家级观察数据,时间跨度为2015年至2024年。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`, `value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Number of suspected malaria cases" (`MALARIA_SUSPECTS`) across African nations, spanning 2015–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区2015至2024年间疑似疟疾病例数的国家层面观测数据。原始数据经Electric Sheep Africa团队系统化采集后,以Parquet格式重新打包,并统一了列名与数据类型,保留了NumericValue字段中的浮点精度值及其置信区间上下界,排除了展示字符串可能带来的歧义。
特点
数据集覆盖44个非洲国家,共计430条记录,每个国家每年仅对应一条观测值,不存在其他维度分层,便于直接用于时间序列分析或回归建模。字段设计规整,同时提供了数值估计与置信区间,可满足分类与回归两类下游任务,数据来源权威、授权开放,是机器学习与流行病学交叉研究的可靠基础资源。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,调用`load_dataset`方法即可获取训练集,并利用`to_pandas`转换为DataFrame进行后续分析。若需分析全体人群的全国层面趋势,可筛选dim1为空或后缀为`_BTSX`的行;对某一国家进行时间序列分析时,可按国家代码与年份排序后处理。
背景与挑战
背景概述
非洲大陆长期承受着全球最为沉重的疟疾负担,准确量化疟疾疑似病例的数量对于评估疾病传播态势、优化公共卫生资源配置至关重要。在此背景下,世界卫生组织全球卫生观察站(WHO GHO)于2024年发布了‘非洲-世卫组织疟疾疑似病例数’数据集,该数据集由Electric Sheep Africa团队从WHO GHO OData API提取并重新打包为机器学习友好的Parquet格式,整合了44个非洲国家2015至2024年间所有疑似疟疾病例的年度观测数据。核心研究问题在于通过统一、可信的时空面板数据,填补非洲疟疾监测在标准化、可互操作数字资源方面的空白,从而支撑流行病学建模、政策效果评估及国际健康目标追踪。该数据集为机器学习社区提供了一份高质量、低延迟的基准资源,显著提升了跨区域健康数据分析的可重复性与协作效率,对全球健康数据科学领域产生了重要的推动力。
当前挑战
该数据集所解决的领域核心挑战在于非洲疟疾监测数据长期存在的碎片化与不一致性。各国报告系统在格式、定义和更新频率上差异巨大,致使跨区域时序分析面临严重的数据壁垒,且传统手工整合方式既耗时又易引入误差。构建过程中主要遭遇了多重技术困难:首先,原始WHO GHO API返回的数据包含字符型显示字段与数值型字段,需严格甄别以确保`NumericValue`字段的准确直接调用,避免字符串解析带来的精度损失与类型错误;其次,指标可能按性别或居住地类型进行分层(如`dim1`字段),若忽视这些子维度,简单汇总将导致统计上的重复或遗漏;再者,置信区间字段`value_low`与`value_high`存在大量缺失,处理缺失模式与插补策略的选择直接关系后续建模的稳健性。此外,将多源、多格式的官方数据统一转换为Parquet列式存储与标准Schema,对数据清洗管线的一致性提出了很高要求。
常用场景
经典使用场景
该数据集汇聚了2015至2024年间非洲44个国家因疑似疟疾而就诊的病例数,是区域流行病学研究中不可多得的时序数据资源。经典应用场景集中于构建国家层面的疾病负担估计模型,研究者可借助该数据开展对非洲各地区疟疾流行趋势的纵向分析,挖掘季节性波动与年度变化规律。此外,整合环境遥感变量或卫生干预覆盖数据后,它还能作为监督学习中的回归任务标签,用于预测未来病例波动,为精准防控提供数据支撑。
解决学术问题
该数据集解决了非洲疟疾监测中公开、标准化精细数据长期匮乏的学术难题。过往研究受制于零散、口径不一的统计数据,难以进行跨国家、跨年份的横向比较。本数据提供了一致框架下的连续值及置信区间,使得学者能够量化疾病负担差异、评估干预措施的净效应,并校正报告偏差与漏报问题,从而提升疟疾流行病学建模和健康政策评估的可靠性与可复现性。
衍生相关工作
基于该数据衍生的经典工作包括将疟疾病例数作为核心标签的时空预测模型,例如利用图神经网络或长短期记忆网络融合邻国传播效应来提升推断精度。另一方向是利用置信区间信息构建概率模型,揭示非洲本地疟疾传播与气候模式间非线性关系。在公平性学习领域,已有研究以此为基础探讨低资源国家间数据分布差异导致的模型偏见,并发展出泛化能力更强的迁移学习框架,惠及更多数据稀缺的卫生系统。
以上内容由遇见数据集搜集并总结生成



