five

electricsheepafrica/africa-who-estimated-number-of-malaria-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-number-of-malaria-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(GHO)指标估计疟疾病例数(MALARIA_EST_CASES)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。它是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO GHO OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值都来自NumericValue字段(浮点精度),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖46个非洲国家,共1,123行数据,仅限于WHO AFRO地区(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator Estimated number of malaria cases (MALARIA_EST_CASES) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations with 1,123 total rows, filtered to WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区疟疾预估病例数(指标代码MALARIA_EST_CASES)。数据以Parquet格式重新打包,采用统一的列式结构,所有数值均取自浮点精度的NumericValue字段,而非显示字符串。数据集涵盖了2000年至2024年间46个非洲国家的1,123条观测记录,每个国家与年份组合对应单一数值,无额外子维度分层。对于存在置信区间的指标,数据集中一并纳入了上下界值(value_low与value_high),为后续不确定性分析提供了支撑。
特点
该数据集具备高度结构化和机器学习就绪的特性,其列式模式包含了indicator_code、country_iso3、who_region、year及核心数值字段value_numeric等关键要素。所有观测均来自WHO非洲区域(AFR),确保了地理聚焦的纯粹性。数据集中dim1与dim2字段的设计允许处理未来可能出现的按性别或居住地类型分层的情况,尽管当前指标无子维度。此外,数据附带last_updated时间戳,便于追踪数据时效性,整体规模适中(1K至10K),适合中小规模的时间序列与回归分析。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,调用load_dataset函数即可获得训练集格式的Pandas DataFrame。针对全国级别的分析,建议筛选dim1字段为空或以_BTSX结尾的记录以获取双性别人群数据。对于国别时间序列研究,可依据country_iso3字段过滤特定国家代码(如KEN对应肯尼亚),并按年份排序。该数据集适用于疟疾负担的时间趋势建模、区域性疫情预警及公共卫生政策评估等任务,亦可结合其他健康指标进行多变量分析。
背景与挑战
背景概述
疟疾作为撒哈拉以南非洲地区长期面临的重大公共卫生威胁,其疾病负担的精确量化对于全球健康治理至关重要。世界卫生组织(WHO)全球卫生观测站(GHO)依托成员国监测数据与统计模型,持续发布疟疾估算病例数这一关键指标。2024年,Electric Sheep Africa团队系统整合了该指标下的历史观测资料,构建了涵盖46个非洲国家、时间跨度为2000至2024年的结构化数据集。该数据集通过标准化架构与Parquet格式封装,为机器学习驱动的流行病学分析提供了高质量、可直接用于建模的非洲健康数据基础设施,在推动区域健康数据科学化应用方面具有开创性意义。
当前挑战
该数据集所应对的领域核心挑战在于,非洲大陆长期缺乏统一、高时间分辨率的疟疾负担估算数据,传统官方统计往往存在年代久远、来源分散或格式不兼容等弊端,难以支撑现代机器学习建模对数据一致性、易用性的严苛要求。同时,数据集构建本身面临着多重技术障碍:原始WHO数据通过OData API获取,需处理不同地区与年份间的数据结构变异;合并时须保留置信区间边界以支持不确定性分析;此外,需针对缺失值、显示字符串与数值字段的一致性及子维度过滤等细节进行精细清洗,从而保障最终数据的可靠性与领域的实用价值。
常用场景
经典使用场景
该数据集收录了世界卫生组织全球卫生观测站(WHO GHO)中非洲地区46个国家2000至2024年间疟疾估算病例数的官方统计,涵盖1123条国家-年份层面的观测记录。数据以清洁、结构化的Parquet格式提供,包含点估计值及其置信区间,可直接用于时间序列分析、回归建模与分类任务。研究者和数据科学家可借此追踪非洲各国疟疾负担的时空演化轨迹,构建预测模型,或评估不同干预措施对病例数变化的影响。其标准化的列设计与HuggingFace Datasets库的无缝集成,使其成为机器学习工作流中高效、可复现的数据源。
解决学术问题
疟疾作为撒哈拉以南非洲地区最沉重的公共卫生负担之一,其定量研究长期受困于数据碎片化与口径不统一。该数据集通过汇聚WHO官方发布的长期面板数据,解决了跨国比较中数据缺失、年份不全与指标各异等关键问题。它使得研究者能够系统性地分析气候、经济发展、卫生政策等变量对疟疾发病率的影响机制,支撑关于防治策略有效性与资源配置优化的因果推断研究。同时,置信区间的提供为不确定性量化与模型校准赋予了必要的统计严谨性,填补了非洲健康数据在可获取性与学术可计算性之间的鸿沟。
衍生相关工作
围绕该数据集已涌现出一系列重要的衍生研究工作,例如利用机器学习算法对非洲国家疟疾病例进行预测并与传统流行病学模型进行对比验证的研究,探索了随机森林与长短期记忆网络(LSTM)在公共卫生时间序列数据上的表现。部分工作进一步融合了气候变量与虫媒生活史特征,构建了基于生态位理论的疟疾传播动态模型。此外,也有研究者将其与人文经济数据交叉分析,探讨卫生支出、教育水平与疟疾发率之间的非线性关联。这些工作不仅验证了数据集在跨学科研究中的通用价值,也推动了非洲健康智能分析与开源数据协作生态的演进。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务