five

electricsheepafrica/africa-who-number-of-indigenous-malaria-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-indigenous-malaria-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2015年至2024年间世界卫生组织全球健康观察站(WHO GHO)关于本土疟疾病例数(指标代码:MALARIA_INDIG)的国家级观测数据。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖45个非洲国家,总行数为441行,地区筛选为WHO AFRO(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator Number of indigenous malaria cases (MALARIA_INDIG) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 45 African nations with a total of 441 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区疟疾本土病例数量这一关键公共卫生指标。由Electric Sheep Africa团队统一整理并重新打包为Parquet文件格式,确保了数据模式的连贯性与机器学习就绪性。数据涵盖2015至2024年间45个非洲国家的年度观测值,共441条记录,每条记录均包含数值型精确估计、置信区间上下限及格式化显示字符串等字段。此外,当指标存在分层维度(如性别或居住地类型)时,数据集会为每种组合生成独立行,以支持更细致的分析需求。
特点
该数据集的核心特点在于其指标专注于单一维度的精准刻画,即非洲各国每年的疟疾本土病例数,避免了维度冗余带来的复杂性。数据优先采用浮点精度的数值字段作为主要机器学习目标,并附带了置信区间信息,为不确定性评估提供了有力支持。所有记录均经过WHO AFRO区域代码过滤,确保了地域集中性。此外,数据集采用一致的列命名规则与类型定义,兼容HuggingFace Datasets库,可直接加载为Pandas DataFrame,便于快速集成到时间序列预测、分类或回归模型中,尤其适合用于公共卫生领域的跨国比较与趋势分析。
使用方法
通过HuggingFace Datasets库的load_dataset函数即可一键加载该数据集,返回的对象可直接转换为Pandas DataFrame进行后续操作。用户可根据需要筛选特定维度的数据,例如利用dim1字段过滤出全国水平和两性均值的观测值,或通过country_iso3列提取单个国家的时间序列数据。对于缺失置信区间的情况,数据集保留了原始WHO的显示字符串作为备选参考。此外,数据集结构清晰,支持按年份排序进行时序分析,也可结合其他非洲健康数据集进行多指标联合建模,为机器学习驱动的公共卫生决策提供坚实的数据基础。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年整理发布,源自世界卫生组织全球卫生观测站(WHO GHO)的官方开放数据,核心聚焦于非洲大陆各国本土疟疾病例数量的年度统计。作为“Electric Sheep Africa”系列的重要组成部分,该数据集旨在构建一个统一、机器学习友好的非洲健康数据仓库,以填补现有数据集中非洲区域精细时序健康数据的空白。其覆盖2015至2024年间45个非洲国家,共441条观测记录,为跨国疟疾流行病学分析、政策评估以及预测建模提供了标准化且高可信度的基准数据,对推动非洲公共卫生领域的量化研究与数据驱动决策具有显著价值。
当前挑战
该数据集所解决的领域问题在于非洲疟疾负担的高异质性及其监测数据的碎片化。构建过程中面临的主要挑战包括:确保从WHO API获取的原始数据清洗后保持语义一致性,尤其是处理缺失的置信区间(value_low/value_high)字段与维度编码;同时需应对不同国家报告延迟与缺失值导致的时序不连续,以及将多源异构的GHO指标统一为可建模的表格结构,以便支持回归与分类任务,并保持后向兼容性以适应多元分析需求。
常用场景
经典使用场景
在疟疾流行病学与全球健康治理的交叉领域中,非洲本土疟疾病例数数据集(africa-who-number-of-indigenous-malaria-cases)作为世界卫生组织全球卫生观察站(WHO GHO)的核心指标之一,承载着对非洲大陆疟疾负担的量化监测任务。该数据集涵盖了2015至2024年间45个非洲国家的年度本土病例统计,以统一整洁的Parquet格式呈现,并附有置信区间信息。其最经典的用途在于构建时间序列模型以追踪疟疾传播趋势、评估各国防控措施的有效性,以及作为预测未来疫情暴发风险的基线数据,为区域健康干预策略的制定提供坚实的数据支持。
解决学术问题
该数据集直面非洲疟疾防控研究中长期存在的数据碎片化与标准不统一问题。通过将来自WHO官方权威渠道的指标数据整合为机器学习就绪的表格化格式,它有效解决了跨国比较分析中因数据口径差异而导致的偏倚难题。研究者得以利用这441条观测记录,开展面板数据分析,揭示社会经济条件、气候变量与疟疾发病率的深层关联;亦可构建回归模型,量化疟疾干预项目(如蚊帐分发、药物疗法推广)对病例数变化的影响幅度,从而填补了非洲区域疟疾流行病学量化研究的基础数据空白。
衍生相关工作
围绕该数据集,学术社区已衍生出一系列经典工作。一方面,基于其时间序列特性,研究者利用Prophet乃至LSTM等深度学习框架,构建了多国疟疾发病率的预测模型,并与气候数据耦合以评估气候变化对疟疾传播潜力的影响。另一方面,该数据也被集成至“Electric Sheep Africa”系列仓库中,与其他健康、经济、环境数据集协同,催生了跨领域因果推断研究,例如探寻教育水平提升与疟疾感染率下降间的因果链条,以及通过空间统计方法揭示跨境疟疾传播的驱动因子。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务