electricsheepafrica/africa-who-number-of-indigenous-p-falciparum-malaria-cases
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-indigenous-p-falciparum-malaria-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(GHO)指标本土恶性疟原虫疟疾病例数量(MALARIA_PF_INDIG)在非洲国家的国家级观察数据,时间跨度为2015年至2024年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO GHO的OData API获取,并以Parquet文件格式重新打包,具有一致的schema。所有数值均来自浮点精度字段NumericValue,而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖44个非洲国家,总行数为424行,地区筛选条件为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator Number of indigenous P. falciparum malaria cases (MALARIA_PF_INDIG) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 44 African nations with a total of 424 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区恶性疟原虫本地感染病例数的国家级观测数据。数据以Parquet格式重新封装,采用一致的标准化模式,确保机器学习任务的即用性。所有数值均来自高精度浮点字段(NumericValue),而非展示字符串,并尽可能包含置信区间上下界(value_low、value_high)。数据集覆盖2015至2024年间44个非洲国家,共计424条记录,且仅限WHO AFRO区域(ParentLocationCode='AFR'),并无额外子维度分层。
特点
该数据集呈现出简洁而精密的结构特性。核心变量涵盖指标代码、国家ISO3代码、WHO区域、观测年份、数值估计及置信区间,同时保留格式化的展示字符串与数据更新时间戳。由于指标缺乏子维度,每条记录直接对应单一国家与年份的组合,避免了因性别或年龄分组造成的复杂分层。这种设计极大简化了时间序列分析、跨国家比较及预测建模的流程,显著提升了在疟疾流行病学与公共卫生政策研究中的可操作性与数据透明度。
使用方法
数据集可通过HuggingFace datasets库便捷加载,以Python环境为例,使用load_dataset函数即可获取训练集并转换为Pandas DataFrame。研究人员可借助逻辑筛选提取双性别的国家级数据,例如通过dim1列的值模式过滤(如以'_BTSX'结尾或为空值)。针对特定国家的时间序列分析,可直接基于country_iso3列选取国别数据,并按年份排序。该数据集兼容表格分类与回归任务,为疟疾病例趋势建模、区域差异量化及卫生资源分配优化提供了高效的数据基础。
背景与挑战
背景概述
非洲大陆长期承受着疟疾带来的沉重公共卫生负担,其中恶性疟原虫(Plasmodium falciparum)作为最致命的疟原虫种类,其本土病例数一直是评估区域疟疾防控成效的关键指标。世界卫生组织(WHO)全球卫生观察站(GHO)系统性地收集并发布了各国相关数据,然而,这些数据常以分散的格式存在,给机器学习驱动的流行病学建模与分析带来了障碍。在此背景下,由Electric Sheep Africa团队整合构建的“非洲WHO GHO:恶性疟原虫本土疟疾病例数”数据集应运而生。该数据集源自WHO GHO官方API,覆盖2015至2024年间44个非洲国家的年度观测记录,总计424条高质量数据,并采用统一的Parquet格式与标准化模式呈现,旨在为区域疟疾负担的时间序列预测、空间分布分析及防控策略评估提供可直接用于机器学习的结构化数据资源,对推动非洲健康数据科学与精准公共卫生决策具有重要的奠基意义。
当前挑战
该数据集所面临的领域问题挑战在于,恶性疟原虫本土病例数的准确估算长期受到非洲地区卫生监测系统薄弱、病例报告不全及诊断能力不均的限制,导致观测值本身蕴含较大不确定性,而模型需要在高噪声与缺失值并存的条件下捕捉真实的流行趋势。在数据集构建过程中,挑战主要体现在数据整合与质量控制方面:原始数据源自WHO GHO的OData API,接口返回的数值包含浮点精度字段与格式化字符串字段,需精确提取数值并保留置信区间信息;部分国家在特定年份的数据缺失或置信区间边界未被记录,要求构建流程设计合理的缺失值处理策略,并确保跨年代的44个国别序列在时间轴上的对齐与一致性,最终以机器学习友好的Lakehouse范式完成封装。
常用场景
经典使用场景
在区域流行病学与全球健康治理研究中,该数据集作为非洲恶性疟原虫本地感染病例数的权威时序记录,被广泛用于构建传染病时空传播模型与疾病负担估算。研究者可借助其覆盖44个非洲国家2015至2024年的面板数据,分析疟疾感染量的地理异质性、年际波动趋势以及防控干预措施的效果评估,尤其适用于开展基于机器学习的发病率预测与风险因子挖掘任务。
衍生相关工作
基于该数据集,学界已衍生出若干标志性研究工作,包括利用随机森林与时空贝叶斯模型对非洲疟疾发病率进行高分辨率制图,以及结合降水与温度数据探讨气候变化对恶性疟原虫传播阈值的影响。此外,部分研究将其纳入多指标融合框架,与蚊虫抗药性监测数据及医疗可及性指数联立,构建综合性的疟疾脆弱性评估体系,极大推动了数字健康时代下循证决策的精细化进程。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区恶性疟原虫本地感染病例数的时空动态监测,为全球疟疾防控策略的优化提供了关键数据支撑。在2023-2024年全球抗击疟疾的热点议题中,世界卫生组织(WHO)强调精准干预与数据驱动的决策,而此数据集以44个非洲国家2015至2024年的年度观测值为基础,弥补了传统指标在细粒度时空分析上的不足。前沿研究方向包括利用机器学习模型预测疟疾传播风险、评估干预措施效果,以及通过置信区间分析健康不平等现象。其意义在于推动非洲健康数据的标准化与可复现性,助力实现WHO提出的“零疟疾”目标,尤其在气候变迁与虫媒扩散加剧的背景下,为区域性公共卫生治理提供了实证依据。
以上内容由遇见数据集搜集并总结生成



