electricsheepafrica/africa-who-estimated-malaria-incidence
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-malaria-incidence
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2024年间WHO GHO指标"估计疟疾发病率(每1000风险人口)"(MALARIA_EST_INCIDENCE)的国家级观测数据。它是Electric Sheep Africa系列的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Estimated malaria incidence (per 1000 population at risk)" (MALARIA_EST_INCIDENCE) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
鉴于疟疾在非洲地区造成的沉重疾病负担,针对该区域的精细化流行病学数据对公共卫生干预至关重要。本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,系统性地汇编了非洲46个国家于2000年至2024年间“估算疟疾发病率(每千高风险人口)”的年度观测值。原始数据被精心提取自NumericValue字段以确保数值的浮点精度,并重塑为统一的Parquet列式存储格式,同时囊括了可信区间上下限(value_low, value_high),为机器学习任务提供了现成可用的结构。
特点
该数据集的核心亮点在于其精确的地理与时间粒度,覆盖了WHO非洲区域(AFRO)的全部关键国家,总计1123行记录。不同于多维度分层指标,此数据集每个国家-年份组合对应唯一观测值,因此无子维度划分,简化了时序分析流程。其模式包含指向性的indicator_code与标准化ISO3国家代码,辅以value_numeric作为核心回归目标,以及value_display用于数据展示,形成了兼具严谨性与易用性的表结构。
使用方法
适配于基于表格数据的分类与回归任务,本数据集可通过Hugging Face的datasets库便捷加载。用户只需调用`load_dataset`函数即可获取包含完整模式的训练集,并可迅速转换为Pandas DataFrame进行探索。典型用例包括筛选“两性全体”(_BTSX)与国家层面数据以评估基线,或通过ISO3代码过滤特定国家(如KEN)并依年份排序以构建时间序列,从而支持从区域趋势分析到预测模型构建的多样化研究需求。
背景与挑战
背景概述
疟疾作为全球公共卫生领域长期面临的重大挑战,尤其在撒哈拉以南非洲地区造成了沉重的疾病负担。世界卫生组织(WHO)全球卫生观测站(GHO)长期系统性地监测各国疟疾流行病学动态,其中“估算疟疾发病率(每千风险人口)”是评估防控成效的核心指标。该数据集由Electric Sheep Africa团队于2024年整合发布,基于WHO官方OData API,将46个非洲国家2000至2024年间共计1123条国家层面的发病率观测值统一封装为机器学习友好的Parquet格式。其核心研究问题在于为区域疟疾建模、趋势分析及政策评估提供标准化、可直接用于时序预测与分类回归任务的高质量数据源。该数据集的推出填补了非洲大陆疟疾流行病学数据在机器学习和数据科学社区中可及性与可复现性的缺口,有望推动基于数据的精准干预研究。
当前挑战
该数据集所解决的领域问题核心在于,非洲疟疾复杂传播动力学受气候、生态、社会经济及抗药性等多因素交互影响,传统统计建模难以捕捉非线性时空关联,而此数据集为发展更为精确的发病率预测、风险分层及干预效果评估的机器学习模型提供了关键基础。在构建过程中,挑战主要源自:1)多源异构数据的整合与一致性维护,需将WHO OData API中的JSON/CSV格式转换为统一Parquet模式,并确保浮点精度而非字符串取值;2)置信区间边界值的缺失处理,部分年份或国家缺乏上下限记录,需在保障数据完整性的前提下设计合理的填充策略;3)亚组维度(如性别、城乡分层)的存在增加了描述与基准化的复杂性,需提供清晰的过滤指引以支持标准化下游分析。
常用场景
经典使用场景
在公共卫生与流行病学研究中,该数据集被广泛用于构建和验证疟疾发病率的时序预测模型。通过整合非洲46个国家自2000年至2024年的年度观测数据,研究者能够捕捉疟疾传播的长期趋势与季节波动,为机器学习算法提供高质量的训练与测试样本。其简洁规范的表格结构,包含点估计值与置信区间,尤其适用于回归任务及基于面板数据的因果推断分析。
实际应用
在实际应用层面,该数据集直接服务于非洲各国卫生部的疾病监测预警系统,以及国际组织如WHO和世界银行的资源配置决策。例如,基于历史发病率的时间序列,可构建早期预警模型,辅助识别高风险区域并提前调配蚊帐、药物等防控物资。此外,发展银行与慈善基金会利用这些数据进行健康干预措施的成本效益分析,指导资金投向最亟需的地区,从而提升公共卫生投资效率。
衍生相关工作
基于该数据集,衍生出一系列经典工作,包括利用LSTM和Transformer架构进行疟疾发病率多步预测的时序建模研究,以及结合环境遥感数据(如降雨量、温度)的多模态预测框架。部分研究聚焦于空间流行病学,通过聚类与空间回归方法揭示发病率的地理异质性。此外,该数据还被用作评估疟疾疫苗和药物临床试验效果的基准对照,推动循证医学决策在非洲的落地。
以上内容由遇见数据集搜集并总结生成



