electricsheepafrica/africa-who-estimated-malaria-mortality-rate
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-malaria-mortality-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标估计疟疾死亡率(每10万人口)(MALARIA_EST_MORTALITY)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并重新打包为具有一致模式的Parquet文件。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Estimated malaria mortality rate (per 100 000 population) (MALARIA_EST_MORTALITY) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,聚焦非洲地区,涵盖2000至2024年间46个非洲国家的疟疾估计死亡率(每10万人口)指标。数据以Parquet格式存储,遵循统一模式,所有数值均来自高精度的浮点型字段NumericValue,而非显示字符串。此外,数据集中还纳入了可用的置信区间上下限(value_low、value_high),为后续分析提供了统计稳健性支持。
特点
该数据集具有显著的结构化优势:其模式包含指标代码、国家ISO3代码、WHO区域、年份、数值估计及其置信区间等关键字段,同时设计了维度类型与维度值列(dim1_type、dim1等),便于用户按性别或居住地区类型等分层信息进行筛选。无子维度的设计确保了每个国家-年份组合仅对应一条记录,简化了时间序列与横截面分析的复杂度,非常适合机器学习任务中的回归与分类场景。
使用方法
用户可通过Hugging Face的datasets库便捷加载数据,例如使用`load_dataset("electricsheepafrica/africa-who-estimated-malaria-mortality-rate")`获取训练集,并转换为pandas DataFrame进行后续操作。建议利用dim1字段过滤男女合计(_BTSX)或缺失值以聚焦国家级总体估计;亦可按国家ISO3代码筛选特定国家(如KEN)并排序年份,从而构建清晰的时间序列数据用于趋势分析与预测建模。
背景与挑战
背景概述
疟疾作为非洲地区长期面临的重大公共卫生威胁,其死亡率评估对制定有效的干预策略至关重要。世界卫生组织全球卫生观测站发布的非洲疟疾估计死亡率数据集,由世界卫生组织于2024年整理并开放,经由Electric Sheep Africa团队重新打包为机器学习友好的格式。该数据集聚焦于2000至2024年间46个非洲国家的疟疾死亡率估计值,以每10万人口为单位,提供了点估计及置信区间等关键指标,旨在支持区域疟疾负担的量化分析与建模。作为全球健康数据与人工智能结合的典范,该数据集为研究非洲疟疾时空动态、评估防控政策效果提供了标准化的数据基础,在公共卫生领域产生了深远影响。
当前挑战
该数据集所应对的核心领域挑战在于非洲疟疾死亡率数据的稀疏性与统计复杂性,传统上难以精确捕捉各国长期趋势及区域差异,而该数据集通过整合WHO官方源数据并细化至国家年份层级,为多因素建模与时空预测提供了可能的突破口。在构建过程中,挑战主要体现为多源异构数据的标准化整合,包括从OData API抓取、清洗字段值(如统一采用浮点精度数值而非显示字符串),以及处理缺失的置信区间信息与亚组分层标识,最终形成兼容Parquet格式的规范架构,以保障机器学习任务的直接可用性与再现性。
常用场景
经典使用场景
该数据集收录了世界卫生组织全球卫生观察站发布的非洲各国2000至2024年间估算疟疾死亡率(每10万人口)的年度观测值,覆盖46个非洲国家,共计1122条记录。数据集以整洁的表格形式呈现,包含点估计值及其置信区间,并保留了国家代码、年份等关键字段,非常适合用于时间序列分析、跨国比较研究以及疟疾负担的空间流行病学建模。研究者可以轻松将其加载为数据框架,按国家筛选或按年份排序,从而构建疟疾死亡率的变化趋势图,或将其作为响应变量与气候、经济、医疗可及性等协变量进行关联分析。
解决学术问题
在疟疾流行病学与全球健康研究领域,长期缺乏统一、机器可读且覆盖非洲大陆多国多年的标准化死亡率数据,这严重制约了跨区域比较研究和政策评估的开展。该数据集通过整合WHO官方发布的估算死亡率及其不确定性范围,为学者提供了一个可靠、高频更新的基础数据源,有效解决了数据碎片化与一致性问题。基于此,研究者能够系统评估疟疾防控干预措施在非洲不同国家的长期效果,量化疾病负担的地理差异,并揭示死亡率随时间演变的内在规律,从而为全球疟疾消除战略提供实证依据。
衍生相关工作
该数据集衍生了一系列具有影响力的学术工作。在机器学习与统计建模领域,研究者基于这些死亡率时间序列开发了多种预测模型,如使用长短期记忆网络或贝叶斯结构时间序列模型来预测未来疟疾死亡率的变化趋势。在空间流行病学方向,该数据集常与气候、海拔、土地利用等地理空间数据联合,构建贝叶斯地理统计模型,绘制非洲疟疾死亡率的连续表面图。此外,也有工作将其与社会经济指标结合,通过面板数据回归分析卫生支出、蚊帐覆盖率、青蒿素治疗可及性等因素与死亡率下降之间的因果关系。
以上内容由遇见数据集搜集并总结生成



