electricsheepafrica/africa-who-number-of-malaria-positive-cases-by-rapid-diagnostic-test
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-malaria-positive-cases-by-rapid-diagnostic-test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO全球健康观察站(GHO)指标“通过快速诊断测试(RDT)检测出的疟疾阳性病例数”(MALARIA_RDT_POS)在非洲国家的国家级观察数据,时间跨度为2015年至2024年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of malaria positive cases by rapid diagnostic test (RDT)" (MALARIA_RDT_POS) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,专注于非洲地区通过快速诊断检测(RDT)确认的疟疾阳性病例数量。数据以Parquet格式重新打包,保留了统一的列式结构,包括指标代码、国家ISO代码、年份、数值估计及其置信区间等核心字段。所有数值均来源于WHO提供的浮点精度字段(NumericValue),而非显示字符串,确保了数值的精确性与机器学习任务的直接适配。数据集覆盖2015至2024年间43个非洲国家的409条观测记录,仅包含WHO AFRO区域的数据,且当前版本未对指标进行性别或年龄等子维度分层,每个国家-年份组合对应唯一一条记录。
使用方法
该数据集可通过HuggingFace Datasets库便捷加载,仅需一行代码即可将数据转换为Pandas DataFrame进行后续分析。使用时,推荐通过dim1字段筛选以获取全性别或国家级别的总体数据,例如过滤出以'_BTSX'结尾或dim1为空的记录。对于时序分析,可依据国家ISO代码和年份字段进行分组排序,如提取肯尼亚的历年数据。数据集中的value_numeric字段可直接作为回归任务的目标变量,而value_low与value_high字段则可用于不确定性建模或区间预测。值得注意的是,由于无子维度分层,每个国家-年份组合仅对应一行,简化了数据聚合步骤,适合直接投入下游建模任务。
背景与挑战
背景概述
疟疾作为非洲地区长期肆虐的重大公共卫生威胁,其精准监测对于制定有效防控策略至关重要。在此背景下,世界卫生组织(WHO)于2024年通过其全球卫生观察站(GHO)发布了“非洲国家快速诊断检测(RDT)疟疾阳性病例数”数据集,由Electric Sheep Africa团队重新整合为机器学习就绪格式。该数据集聚焦于2015至2024年间非洲43个国家的年份层面观测数据,核心研究问题在于利用RDT阳性病例数量化疟疾负担,从而服务于疾病流行病学建模、资源分配优化及干预措施效果评估。作为WHO GHO指标系统的重要组成部分,该数据集的标准化格式和时间跨度使其在非洲公共卫生研究领域具有显著价值,为全球健康数据分析提供了关键的基础数据支撑。
当前挑战
该数据集所解决的领域问题在于填补了非洲地区基于RDT检测的疟疾阳性病例数标准化、机器学习可用的数据空白,有助于推动疾病预测模型和政策模拟研究。然而,其构建过程面临多重挑战:首先,数据来源依赖WHO GHO API,需处理不同国家报告体系间的异构性和时效性差异,确保409条记录的一致性与完整性。其次,置信区间字段value_low和value_high的缺失值处理及NumericValue字段的浮点精度维护增加了数据清洗难度。此外,尽管没有子维度,但部分分类变量如dim1的编码规范(如SEX_BTSX)需统一解析以支持跨域分析,同时需保证CC BY 4.0许可下的知识共享合规性,从而在开放科学框架下实现高质量非洲健康数据的可复现利用。
常用场景
经典使用场景
在非洲疟疾流行病学研究中,该数据集作为衡量疟疾快速诊断测试(RDT)阳性病例数的权威统计来源,常被用于构建时间序列预测模型或面板数据回归分析。研究者可基于覆盖43个非洲国家、横跨2015至2024年的年度观测值,探索疟疾负担的时空演变规律。经典的建模场景包括利用随机森林、梯度提升树等机器学习算法预测未来病例波动,或结合气候变量与公共卫生干预措施,揭示影响阳性率动态变化的关键驱动因素。
解决学术问题
该数据集有力回应了非洲疟疾监测中长期存在的数据碎片化与可比性不足的挑战。通过整合世界卫生组织全球卫生观测站的标准化指标,它解决了跨国家、跨年度疟疾阳性病例定量比较的难题。学术上,研究者可借此评估消除疟疾倡议的阶段性成效,量化快速诊断普及对病例登记完整性的提升作用,并为验证寄生虫耐药性扩散模型提供关键的地面真值参考,进而支持全球卫生治理中的循证决策。
实际应用
在实际公共卫生场景中,该数据集赋能了多项重要应用:国际组织如WHO与非洲疾控中心可基于年度病例趋势,动态调整抗疟物资储备与应急响应策略;非营利机构利用其预测模型优化杀虫剂蚊帐及青蒿素药物的地域分配;国家卫生部门则将阳性病例数据整合进健康管理信息系统,用于评估RDT检测网络的覆盖缺漏,并指导基层医疗资源的精准投放,实现从数据到防控行动的有效转化。
数据集最近研究
最新研究方向
面向非洲疟疾快速诊断检测阳性病例的时空流行病学建模与公共卫生决策支持研究。该数据集整合了WHO全球卫生观察站2015至2024年间43个非洲国家的RDT阳性病例指标,为机器学习驱动的疾病负担估算、干预措施效果评估及资源优化配置提供了标准化的时序数据基础。当前前沿方向聚焦于利用该数据构建多变量预测模型,结合气候、流动性与卫生系统数据,揭示疟疾传播的异质性规律,并探索在联合国可持续发展目标框架下,如何通过数据驱动方法提升非洲地区疟疾防控的精准性与响应速度。
以上内容由遇见数据集搜集并总结生成



