electricsheepafrica/africa-who-number-of-malaria-suspects-examined-by-rapid-diagnostic-test
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-malaria-suspects-examined-by-rapid-diagnostic-test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2015年至2024年间通过快速诊断测试(RDT)检查的疟疾疑似病例数量的国家级别观察数据,是世界卫生组织全球健康观察站(WHO GHO)指标的一部分。数据直接从WHO GHO OData API获取,并重新打包为具有一致架构的Parquet文件。所有值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of malaria suspects examined by rapid diagnostic test (RDT)" (`MALARIA_RDT_TEST`) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲地区疟疾疑似患者接受快速诊断检测(RDT)的数量。研究者通过OData API系统性地获取原始指标数据,并精心重构为统一的Parquet格式文件。数据采集过程严格保留WHO提供的原始数值字段(NumericValue),同时纳入置信区间范围(value_low与value_high),确保统计精度不受显示字符串的干扰。最终整合为包含42个非洲国家、覆盖2015至2024年间的403条观测记录,构成一个结构化、机器就绪的非洲健康数据资产。
特点
该数据集展现出多重珍贵特性:首先,其聚焦于疟疾RDT检测这一关键公共卫生指标,提供非洲大陆跨度十年的国家级时序数据,为区域流行病学分析奠定坚实基础。其次,数据模式简洁统一,每一条记录对应一个特定国家与年份的唯一观测值,避免了多维度分层带来的复杂性,便于直接建模。此外,数据不仅包含核心的数值估计,还附带了上下置信界信息,赋予研究者评估不确定性的能力,提升了统计推断的可靠性。数据经过专业处理,保持原始机构的高质量标准,且遵循CC BY 4.0开放许可。
使用方法
使用该数据集极为便捷,用户可通过Hugging Face的`datasets`库直接加载,一行命令即可获取完整的训练集,并轻松转换为Pandas DataFrame进行后续分析。对于需要筛选特定人群的研究,可通过过滤`dim1`字段中的性别标识(如`_BTSX`结尾代表两性综合)来提取国家级别的数据。时序分析亦可直接通过`country_iso3`和`year`字段完成,例如筛选肯尼亚(KEN)的数据并按年份排序即可构建完整时间序列。数据加载后即可直接应用于表格分类、回归等机器学习任务,实现从数据获取到模型训练的无缝衔接。
背景与挑战
背景概述
疟疾作为非洲大陆亟待解决的公共卫生危机,其精准监测对于制定防控策略至关重要。该数据集由世界卫生组织全球卫生观察站于2024年创建,并经Electric Sheep Africa团队重新整合,聚焦于2015至2024年间42个非洲国家使用快速诊断检测法检查的疟疾疑似病例数量。核心研究问题在于系统收集并统一呈现这一关键指标,以推动机器学习在非洲卫生数据中的应用。数据集以标准化的Parquet格式发布,为研究疟疾诊断覆盖率、评估检测资源分配效率提供了可靠的数据基础,对全球疟疾防控决策与数据分析领域产生了重要影响。
当前挑战
该数据集首要挑战在于解决的领域问题:疟疾诊断数据的准确性与可比性。不同国家间诊断实践差异、报告体系完善程度不一,导致原始数据可能存在采集偏差,影响跨区域建模的可靠性。构建过程中面临的挑战包括:从WHO的OData API中抽取并清洗数据时,需确保NumericValue字段的精确性,避免显示字符串的歧义;覆盖42个国家且时间跨度长达十年,需处理缺失年份与置信区间不完整的问题;同时统一异构的数据模式,以适用于表格分类与回归任务,对数据标准化与质量控制提出了较高要求。
常用场景
经典使用场景
该数据集汇集了2015至2024年间42个非洲国家经快速诊断测试(RDT)检测的疟疾疑似病例数量,为研究疟疾诊断覆盖率的时空动态提供了珍贵的高频面板数据。其核心应用场景聚焦于分析RDT检测量在非洲大陆的分布格局与演变趋势,常被用于构建回归模型以探究检测量与气候、卫生政策、疾病负担等因素间的关联。
实际应用
在实际公共卫生决策中,该数据集可助力世界卫生组织及非洲各国卫生部实时监测RDT检测能力,识别检测薄弱的区域与时间段,从而指导国际援助的精准投放。同时,其可作为传染性疾病预警系统的输入特征,结合环境与人口流动数据,预测疫情暴发风险,增强非洲大陆的疟疾应急响应能力。
衍生相关工作
围绕该数据集的衍生工作涌现出多种创新研究范式,包括利用时序模型对非洲各国RDT检测量进行短期预测,以及构建分层贝叶斯模型揭示社会经济因素对检测覆盖率的不均衡影响。此外,该数据集常与疟疾发病率、杀虫剂耐药性等指标联合建模,催生了多变量因果推断框架,深化了人们对热带传染病诊断瓶颈的认知。
以上内容由遇见数据集搜集并总结生成



