five

electricsheepafrica/africa-who-number-of-presumed-malaria-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-presumed-malaria-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“疑似疟疾病例数”(`MALARIA_PRES_CASES`)在非洲国家的国家级观察数据,时间跨度为2015年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Number of presumed malaria cases" (`MALARIA_PRES_CASES`) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO Global Health Observatory)的公开OData API,由Electric Sheep Africa项目团队系统性地采集、清洗并重封装为机器学习友好的Parquet格式文件。数据聚焦于2015至2024年间非洲45个国家关于“推定疟疾病例数”(MALARIA_PRES_CASES)的年度观测值,共计450条记录。构建过程中严格提取了API中的浮点精度数值字段(NumericValue)作为核心指标,同时保留了置信区间上下界等辅助字段,确保数据精度与统计完整性。
特点
数据集以国家-年份为唯一粒度,无额外子维度分层,结构简洁且规整。其核心变量value_numeric提供了可直接用于回归或分类任务的连续型目标值,而value_low与value_high字段则为不确定性建模或区间预测提供了可能。所有记录均附带标准化的ISO国家代码、WHO区域标识及时间戳,便于跨数据集融合与时间序列分析。数据覆盖非洲大部分国家,且全部子集限定于WHO AFRO区域,具有明确的地域聚焦性与公共卫生决策支撑价值。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,并便捷地转换为pandas DataFrame进行探索或建模。针对多维度数据,建议通过过滤dim1字段中后缀为_BTSX或为空的行,快速提取全国层面且涵盖两性的标准观测值。对于特定国家的时间序列分析,可基于country_iso3字段筛选后按年份排序。该数据集适用于构建疟疾负担预测模型、区域健康指标对比研究以及作为非洲健康数据仓库的基础组件,配合其他WHO GHO指标实现多变量综合分析。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年构建,源自世界卫生组织全球卫生观察站(WHO GHO),核心指标为非洲国家2015至2024年间“推定疟疾病例数”(MALARIA_PRES_CASES)。疟疾作为非洲大陆最严峻的公共卫生挑战之一,长期威胁数亿人口的生命健康,而精准的时空流行病学数据是制定防控策略、评估干预效果的基础。该数据集整合了45个非洲国家的450条观测记录,覆盖WHO非洲区域全部国家,并以统一的Parquet格式呈现,为机器学习驱动的非洲健康研究提供了标准化、可复用的数据基础。其影响不仅体现在填补了区域开放卫生数据在结构化、时效性方面的空白,更通过公开许可(CC BY 4.0)降低了研究门槛,有望推动跨国疟疾预测模型、资源分配优化及政策评估等领域的实证研究发展。
当前挑战
该数据集主要面对两大挑战。其一,在领域问题层面,疟疾流行受气候、环境、人口流动及公共卫生干预等多维因素交织影响,单纯依赖国家层面的年度推定病例数难以捕捉动态传播特征与空间异质性,易导致预测模型泛化能力不足。其二,在数据构建过程中,原始WHO GHO数据通过OData API获取,存在维度不一致(如部分指标按性别或居住地类型分层)、置信区间缺失以及不同年份观测记录的时效性差异等问题。尽管数据集已进行标准化重包装,但国家间报告系统质量参差、数据滞后及缺失值处理仍是构建稳健机器学习管道的关键瓶颈,亟需结合外部协变量与先进插补策略方能释放其潜在价值。
常用场景
经典使用场景
在全球公共卫生领域,尤其是疟疾防控研究中,非洲区域疑似疟疾病例数的统计与分析是评估疾病负担和干预效果的基础。该数据集以世界卫生组织全球卫生观察站为数据源,汇聚了2015至2024年间45个非洲国家的年度疑似疟疾病例数,并以统一的Parquet格式呈现,便于机器学习与统计分析。其经典使用场景涵盖时间序列预测、区域疫情趋势分析以及跨国家比较研究,研究者可借此构建回归模型或分类器,预测未来疫情走势或判断高负担国家的流行病学特征。
解决学术问题
在学术研究层面,该数据集有效回应了非洲疟疾流行病学中数据碎片化与标准不统一的难题。通过提供一致化、机器可读的疑似病例数值指标及置信区间,它支撑了疾病负担的精确估算、干预策略的效能评估以及时空动态建模。数据集的应用有助于揭示气候、人口流动和公共卫生政策对疟疾传播的影响机制,推动了流行病学与数据科学交叉领域的前沿探索,为全球健康治理提供了量化依据。
衍生相关工作
围绕此数据集衍生的相关经典工作主要包括基于机器学习的疟疾疫情预测模型、区域健康不平等分析以及流行病学因果推断研究。例如,研究者利用其稀疏但多维的指标,开发了适用于低资源场景的时序预测算法,或结合气候和人口迁移数据构建分层贝叶斯模型,评估疟疾传播风险的空间异质性。这些工作不仅扩展了数据集的应用边界,也促进了开源数据生态在非洲健康领域的蓬勃发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务