electricsheepafrica/africa-who-number-of-imported-malaria-cases
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-imported-malaria-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2015年至2024年期间世界卫生组织(WHO)全球健康观察站(GHO)指标“输入性疟疾病例数”的国家级观察数据。数据来源于WHO的全球健康观察站OData API,并以Parquet文件的形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集覆盖17个非洲国家,总行数为123行,区域过滤器为WHO AFRO(`ParentLocationCode = AFR`)。数据集的结构包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间边界、显示字符串、维度类型和值等列。
This dataset contains country-level observations for the WHO GHO indicator "Number of imported malaria cases" (`MALARIA_IMPORTED`) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 17 African nations with a total of 123 rows, filtered by WHO AFRO region (`ParentLocationCode = AFR`). The schema includes columns such as indicator code, country ISO3 code, WHO region code, year, numeric value, confidence interval bounds, display string, dimension types and values.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经过系统性采集与重新封装,形成一套具备统一模式的机器学习就绪型数据资源。所有观测值均直接取自`NumericValue`字段,确保数值精度,同时保留了置信区间上下界(`value_low`、`value_high`)以供不确定度分析。数据以Parquet格式存储,覆盖2015至2024年间17个非洲国家的年度输入性疟疾病例数,共计123条记录,并依据WHO AFRO区域代码筛选聚焦于非洲大陆。
特点
数据集核心特征在于其简洁而结构化的多维性:每一条记录对应一个国家与年份组合,无额外分层维度,适用于直接的时间序列分析与回归任务。除点估计值外,附带的置信区间信息为健康指标的不确定性评估提供了宝贵支撑。此外,数据遵循CC BY 4.0许可协议,具备开放的再利用属性,且所有列均采用清晰的数据类型(如字符串、浮点数与整数),便于与主流数据科学工具无缝衔接。
使用方法
使用该数据集时,可通过`datasets`库的`load_dataset`函数直接加载,并转换至Pandas DataFrame进行下游操作。若需分析特定性别或居住地类型层面的数据,可依据`dim1`与`dim2`列进行过滤;对于国家级总体分析,推荐筛选`dim1`为`SEX_BTSX`或缺失值的记录。研究时间趋势时,可按`country_iso3`分组后依年份排序。该设计降低了预处理门槛,使研究者能快速聚焦于建模与推断环节。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年整合自世界卫生组织(WHO)全球卫生观察站(GHO)的公开数据,聚焦非洲地区疟疾输入病例的数量(指标代码MALARIA_IMPORTED),覆盖2015至2024年间17个非洲国家的年度观测值,共计123条记录。数据以Parquet格式重新封装,保留数值估计及置信区间,旨在为非洲健康领域的机器学习研究提供统一、可复用的数据基础。疟疾作为非洲大陆最严重的公共卫生负担之一,输入性病例的监测对于理解跨国传播动态、评估防控措施效果及指导资源分配至关重要。该数据集填补了非洲地区疟疾输入病例结构化、机器可读数据集的空白,有助于推动时空建模、预测分析和健康政策研究,尤其在WHO非洲区域(AFRO)背景下,对全球疟疾消除目标具有支撑作用。
当前挑战
该数据集所解决的领域问题在于,非洲疟疾输入病例的量化监测长期依赖零散的国家报告,缺乏整合的、标准化的机器可读数据,阻碍了跨国比对和预测模型的构建。构建过程中面临的挑战包括:1)数据来源的异构性——原始数据来自WHO GHO的OData API,需解析不同格式并统一为一致的数值字段(NumericValue)而非显示字符串;2)数据稀疏性与不完整性——仅17个国家有可用记录,部分年份或国家的置信区间缺失,限制了模型训练的样本量和鲁棒性;3)无子维度分层(如性别、年龄)记录,使得细粒度分析无法直接开展;4)时间跨度短(10年)且地域集中,可能引入时空偏倚,影响模型泛化能力。
常用场景
经典使用场景
在传染病流行病学与全球公共卫生监测领域,该数据集为分析非洲地区输入性疟疾病例的分时空分布特征提供了标准化数据基础。研究者常利用其国家-年度观测结构,结合`value_numeric`数值进行跨区域对比,或通过`value_low`与`value_high`置信区间评估数据不确定性。典型用法包括时间序列建模以揭示2015至2024年间输入性疟疾的流行趋势变化,以及基于国家层面的面板数据回归探究社会经济、气候变量与输入病例数量的关联机制。
解决学术问题
该数据集的公开与结构化有效缓解了非洲区域输入性疟疾长期存在的数据碎片化与可比性不足的学术困境。它使研究者能够量化跨境传播的强度与时空动态,从而支撑疾病传播风险模型的构建与评估。此外,数据集提供的置信区间信息为统计推断与不确定性量化提供了关键支持,可推动更可靠的流行病学参数估计,填补了非洲在输入性疟疾全球监测网络中的数据空白,对理解消除疟疾进程中跨境传播的阻碍具有重大意义。
衍生相关工作
该数据集激励了一系列基于全球健康观测数据的衍生研究,包括整合多来源疟疾报告数据以构建高精度时空传播模型的工作,以及结合气候与人口流动性数据揭示输入性病例驱动机制的分析。典型衍生工作如利用该数据进行输入性疟疾病例与国家疟疾本地传播状况的关联性探究,并推动了量化评估跨境控制在疟疾消除进程中作用的计量经济学模型发展。此外,也有研究者以其为基础开发面向非洲的公共卫生状态可视化与动态监测仪表板。
以上内容由遇见数据集搜集并总结生成



