five

electricsheepafrica/africa-who-number-of-malaria-positive-cases-by-microscopy

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-malaria-positive-cases-by-microscopy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标通过显微镜检测出的疟疾阳性病例数量(MALARIA_MICR_POS)在非洲国家的国家级观测数据,时间跨度为2015年至2024年。数据直接来源于WHO GHO的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖45个非洲国家,共计415行数据,适用于表格分类和回归任务。

This dataset contains country-level observations for the WHO GHO indicator Number of malaria positive cases by microscopy (MALARIA_MICR_POS) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData应用程序编程接口,聚焦于非洲地区通过显微镜检确诊的疟疾阳性病例数量。数据采集严格限定于WHO AFRO区域的45个非洲国家,时间跨度为2015年至2024年,共包含415条国家级观测记录。原始数据经系统化抽取与清洗后,以Parquet文件格式进行统一封装,并保留浮点精度的数值字段(NumericValue)作为核心指标,同时纳入置信区间上下限等辅助字段,构建出具备一致架构且面向机器学习就绪的标准化数据集。
特点
该数据集呈现出高度简洁且聚焦的表格型数据结构,单条记录对应特定国家与年份的唯一组合,不包含任何子维度分层。其核心优势在于数据来源的权威性与格式的纯净性,直接采用WHO官方发布的精确数值而非显示字符串,极大提升了数值分析的可靠性。此外,数据集附带了低值与高值置信区间,为不确定性量化提供了便利,且所有记录均以规范的ISO国家代码与年份索引,便于进行跨国家的时间序列分析与区域比较。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,并直接将其转换为Pandas DataFrame以进行后续分析。使用时需注意筛选维度列以获取特定亚群数据,例如通过过滤dim1列中后缀为'_BTSX'的记录或空值来获得全国性与两性合并的观测值。对于单国时间序列分析,可按国家ISO代码与年份列进行筛选与排序。由于数据集已预先清除了非数值显示字符串,研究人员可无缝将其拟合至各类回归或分类模型中,重点关注'value_numeric'作为目标变量。
背景与挑战
背景概述
疟疾作为非洲大陆最严峻的公共卫生挑战之一,其精准监测对于疾病防控策略的制定至关重要。在此背景下,世界卫生组织(WHO)全球卫生观测站(GHO)于2024年发布了“非洲疟疾显微镜检测阳性病例数”数据集,由Electric Sheep Africa团队整理并托管于HuggingFace平台。该数据集聚焦于2015至2024年间45个非洲国家的年度疟疾显微镜检测阳性病例数,共计415条观测记录,旨在为机器学习驱动的非洲健康研究提供标准化、易于使用的结构化数据。其核心研究问题在于通过量化疟疾流行趋势,支持流行病学建模、资源分配和干预效果评估,对非洲区域疟疾防控政策制定与学术研究具有显著推动作用。
当前挑战
该数据集所解决的领域问题核心在于非洲疟疾监测数据的碎片化与可用性不足——传统数据分散于不同国家卫生系统且格式不一,难以支撑大规模跨国的机器学习分析。构建过程中面临多重挑战:首先,WHO GHO原始数据通过OData API获取,需处理异构响应结构与缺失值,尤其是置信区间字段(value_low, value_high)仅有部分观测可用;其次,数据按国家与年份聚合,无性别或居住地层化维度,限制了人口亚组分析的能力;此外,数据集虽覆盖45个国家,但样本量仅415条,时空稀疏性对模型泛化构成潜在障碍。
常用场景
经典使用场景
该数据集聚焦于非洲地区疟疾显微镜检测阳性病例数的定量描述,提供了2015至2024年间45个非洲国家的年度观测数据。在流行病学与公共卫生研究中,它被广泛用于构建疟疾负担的时间序列模型、评估区域防控成效,以及作为监督学习任务中的回归目标或分类标签,例如预测疫情波动趋势或识别高风险国家。
实际应用
在实际应用中,该数据集可被公共卫生机构用于动态监测疟疾流行态势,辅助资源分配决策,例如指导抗疟药物的采购与分发、优化显微镜检测网点布局。同时,它也可嵌入到疾病预警系统中,结合气象、人口等数据构建实时风险评估工具,为非洲各国卫生部门及国际组织如WHO、全球基金提供数据驱动的政策支持。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于时间序列的疟疾发病率预测模型(如ARIMA、LSTM)、地理加权回归分析以揭示疟疾空间异质性,以及将显微镜阳性病例与其他疟疾指标(如RDT检测阳性数、死亡率)融合的多变量联合建模。此外,它还促进了跨数据集的对比研究,例如与气候、土地利用数据联动,深入探讨环境因素对疟疾传播的影响机制。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务