electricsheepafrica/africa-who-number-of-confirmed-malaria-cases
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-confirmed-malaria-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2015年至2024年期间世界卫生组织全球健康观察站(WHO GHO)的确诊疟疾病例数指标数据。数据集由Electric Sheep Africa整理,直接从WHO GHO OData API获取数据,并以Parquet文件格式重新打包。数据包括45个非洲国家,共442行记录,每行记录包含国家ISO代码、年份、数值估计值、置信区间(如果可用)、显示字符串等字段。数据集适用于表格分类和回归任务,主要用于机器学习和数据分析。
This dataset contains country-level observations for the WHO GHO indicator Number of confirmed malaria cases (MALARIA_CONF_CASES) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO Global Health Observatory)的OData API,聚焦于非洲地区疟疾确诊病例数这一关键健康指标。数据集由Electric Sheep Africa团队进行统一整理与重新打包,以Parquet文件格式存储,并采用一致的列式架构。所有数值均取自原始接口中的`NumericValue`浮点精度字段,而非展示字符串,同时保留了置信区间上下界(`value_low`与`value_high`)等信息。最终形成了覆盖45个非洲国家、时间跨度为2015年至2024年、共计442条观测记录的清洁、机器学习就绪的表格数据集。
特点
该数据集的核心特点在于其高度的标准化与针对性。数据仅包含WHO AFRO区域(`ParentLocationCode = 'AFR'`)的非洲国家观测,排除了不必要的区域混杂。每个国家与年份组合对应一条记录,无额外子维度,结构简洁明了。数据列包含指示符代码、国家ISO代码、WHO区域、年份、数值点估计、置信区间上下界、展示字符串以及可能的维度信息(如性别、居住地类型),为用户提供了丰富的分析维度。此外,数据集遵从CC BY 4.0许可协议,确保了开放性与可复现性,非常适合用于非洲疟疾负担的时间序列建模、流行病学趋势分析及公共卫生决策支持。
使用方法
用户可通过HuggingFace的`datasets`库直接加载该数据集:`load_dataset("electricsheepafrica/africa-who-number-of-confirmed-malaria-cases")`,将返回的Dataset对象转换为Pandas DataFrame后即可开展分析。为聚焦于国家层面的总趋势,可通过过滤`dim1`列以`_BTSX`结尾或为空的行来获取全国总数据(不考虑性别或城乡分层)。对于特定国家的时间序列研究,可按`country_iso3`列筛选(如`"KEN"`表示肯尼亚),并用`year`列排序。若遇到按性别或年龄组分层的指标,用户还可根据`dim1`与`dim2`列灵活选取特定亚群,或跨分层进行汇总。
背景与挑战
背景概述
在非洲大陆,疟疾作为一项重大公共卫生挑战,其精确的病例监测对于疾病控制和资源分配至关重要。世界卫生组织(WHO)全球卫生观察站(GHO)定期发布各国疟疾确认病例数,但原始数据分散且格式不一,限制了其在机器学习领域的直接应用。为此,Electric Sheep Africa团队于2024年创建了africa-who-number-of-confirmed-malaria-cases数据集,旨在整合WHO官方数据,提供覆盖2015至2024年间45个非洲国家的统一、机器可读的病例统计信息。该数据集以Parquet格式存储,包含点估计值与置信区间,为流行病学研究、时空建模及智能预测提供了标准化基础,提升了该区域健康数据的可访问性与可复现性。
当前挑战
该数据集面临的核心挑战源于所解决的领域问题与构建过程的双重复杂性。在领域层面,疟疾传播受气候、人口流动及防治措施等多因素影响,单纯依靠病例数难以精准预测疫情爆发趋势,需结合环境与行为数据构建多模态模型。在构建过程中,挑战包括:WHO OData API接口返回的原始条目中存在大量的缺失值与异常值,尤其在低收入国家的统计区间内置信边界(value_low与value_high)经常为空,迫使团队采取审慎的填充策略;此外,跨年度数据的可比性因各国诊断手段与报告政策的差异而减弱,例如部分年份病例数因检测能力提升而突增,并非实际疫情加剧。这些因素要求使用者在建模前进行细致的特征工程与偏差校正,以确保分析结论的稳健性。
常用场景
经典使用场景
疟疾作为非洲大陆最为严峻的公共卫生挑战之一,其确诊病例数的精确追踪是疾病防控的核心环节。在此背景下,africa-who-number-of-confirmed-malaria-cases数据集为研究者提供了横跨2015至2024年、覆盖45个非洲国家的年度确诊病例数,成为分析疟疾时空流行格局的基石。该数据集最经典的用途在于构建国家层面的时间序列模型,透过对确诊病例数的纵向剖析,揭示疫情在特定区域的演变规律与爆发风险,为流行病学的宏观洞察提供了坚实的数据支撑。
实际应用
在实际应用层面,该数据集为非洲各国的卫生决策机构提供了量化工具,用于评估国家疟疾控制计划(NMCP)的阶段性成效,并指导抗疟资源的精准分配。世界卫生组织和各国卫生部可基于历史确诊病例数的变化趋势,提前预判局部疫情的上升拐点,从而优化蚊帐分发、药物储备及室内滞留喷洒等干预措施的实施时机与区域。此外,数据分析团队可将其作为核心特征,构建实时预警系统,辅助应对疟疾突发公共卫生事件。
衍生相关工作
依托该数据集的标准化架构,学术界已衍生出一系列卓有成效的相关工作。研究者将其与气候遥感数据(如降雨量、温度)及环境变量深度融合,开发出高精度的疟疾风险地图,极大提升了疾病传播模拟的时空分辨率。部分工作进一步结合迁移学习方法,将非洲区域的数据模型迁移至其他流行病学场景,验证了数据集跨领域的泛化能力。这些衍生研究不仅丰富了计算流行病学的方法论体系,也为其他传染病的数据治理提供了可复用的范式参考。
以上内容由遇见数据集搜集并总结生成



