electricsheepafrica/africa-who-number-of-malaria-suspects-examined-by-microscopy
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-malaria-suspects-examined-by-microscopy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标通过显微镜检查的疟疾疑似病例数量(MALARIA_MICR_TEST)在非洲国家的国家级观察数据,时间跨度为2015年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Number of malaria suspects examined by microscopy (MALARIA_MICR_TEST) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa团队重新打包为具有统一模式的Parquet文件。数据聚焦于非洲地区,依据WHO AFRO区域代码筛选出44个非洲国家,覆盖2015至2024年间每年全国层面的疟疾镜检疑似病例数。构建过程中,所有数值均提取自NumericValue字段以保障浮点精度,并保留了置信区间上下限。最终形成包含405条记录、14个字段的表格,每个字段如国家代码、年份、数值等均明确定义,为机器学习应用提供了结构化且一致性强的数据基础。
使用方法
使用该数据集时,推荐通过HuggingFace datasets库的load_dataset函数直接加载,返回的Dataset对象可便捷地转换为Pandas DataFrame进行深入分析。若需聚焦于两性合计且全国层面的数据,可通过过滤dim1字段尾部为_BTSX或为空值的行来实现。此外,利用country_iso3字段筛选特定国家,并结合year字段排序,即可轻松绘制单一国家的时间序列趋势图。对于需要考虑不确定性的建模,可直接调用value_low与value_high字段作为目标变量的下界与上界,拓展模型输出维度。
背景与挑战
背景概述
疟疾作为非洲大陆最为棘手的公共卫生挑战之一,其精准监测与防控始终是全球健康治理的焦点。世界卫生组织全球卫生观察站(WHO GHO)发布的“显微镜检查疟疾疑似病例数”指标(MALARIA_MICR_TEST),为追踪非洲地区疟疾诊断活动提供了关键数据窗口。该数据集由Electric Sheep Africa团队于2024年整理发布,整合了2015至2024年间44个非洲国家的国家级观测数据,共405条记录,旨在将官方卫生统计转化为机器学习就绪的开放资源。通过统一架构的Parquet文件格式,数据集不仅保留了WHO原始浮点精度数值,还纳入了置信区间等统计特征,为流行病学建模、资源分配预测及健康政策评估提供了可靠基座,显著推动了数据驱动型非洲卫生研究的发展。
当前挑战
该数据集所应对的核心领域挑战在于,非洲疟疾监测体系长期受限于诊断数据碎片化、报告不一致及时间序列稀疏等问题,导致宏观趋势研判与微观干预效果评估均面临显著不确定性。具体而言,显微镜检查作为疟疾诊断的金标准,其覆盖范围与执行质量在不同国家间差异悬殊,数据集的构建须克服WHO多源API接口的数据异构性,对NumericValue字段进行精准提取,并处理置信区间缺失的情况。此外,跨年度与跨国家的数据整合需统一ISO代码与时区规范,同时保证仅405行的样本量足以支撑稳健的时空建模,这对处理稀疏性与不平衡性的机器学习算法提出了严苛要求。
常用场景
经典使用场景
在公共卫生与热带医学研究领域,疟疾的显微镜检测是确诊的金标准,该数据集围绕非洲各国在2015至2024年间经显微镜检查的疟疾疑似病例数量展开,为流行病学研究提供了宝贵的纵向观察基础。其经典使用场景包括构建时间序列分析模型,以捕捉疟疾诊断活动的年度波动与长期趋势;通过面板数据分析,比较不同非洲国家的检测覆盖差异;以及作为机器学习回归任务的目标变量,预测未来检测需求或诊断资源配置缺口。数据集以国家-年份为记录单元,包含点估计值与置信区间,便于进行稳健的统计推断。
解决学术问题
该数据集从宏观层面回应了非洲疟疾监测体系中的关键学术问题,即如何量化和评估显微镜诊断这一传统但核心的检测手段在资源有限地区的部署规模与变化规律。它解决了多国间检测数据的可比性缺失难题,使研究者能够系统探索影响检测数量的社会经济、气候或政策因素。同时,置信区间字段的引入使不确定性建模成为可能,为卫生政策评估中的因果推断与效应量估计提供了实证材料。这一数据集的公开化与机器可读化,显著降低了跨学科研究者获取高质量非洲疟疾监测数据的门槛。
实际应用
在实际应用层面,该数据集可直接服务于非洲各国卫生部门与国际组织的决策支持系统。例如,基于历年检测数量变化,可以优化显微镜耗材与人力分配,预警潜在诊断能力不足的高发区域;结合疟疾发病率数据,能够计算检测阳性率,评估筛查效率与治疗转归。对于非政府组织而言,该数据集可辅助设计资源投放策略,优先支援检测量低或波动剧烈的地区。此外,它为开发非洲健康数据可视化仪表盘提供了可靠的数据基座,使公共卫生倡导者能够更直观地向公众传达疟疾防控进展。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区通过显微镜检查的疟疾疑似病例数量,为全球疟疾监测与消除策略提供了关键量化基础。当前研究前沿集中于利用该时间序列数据(2015-2024年)进行时空流行病学建模,以揭示疟疾传播的热点区域与季节性动态;同时结合机器学习回归与分类方法,预测疫情暴发风险并优化有限医疗资源的配置。在WHO推动的“零疟疾”倡议与非洲数字健康转型的背景下,该数据集作为统一、机器可读的ML就绪资源,显著降低了数据获取与预处理的门槛,助力交叉验证诊断覆盖率与抗疟干预效果。其影响深远:不仅支持区域卫生决策基于证据的动态调整,更催生了跨国的开源协作研究,加速了疟疾防控从被动响应向主动预警的范式转变。
以上内容由遇见数据集搜集并总结生成



