five

electricsheepafrica/africa-who-estimated-number-of-malaria-deaths

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-number-of-malaria-deaths
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“疟疾死亡估计数”(MALARIA_EST_DEATHS)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。数据直接来源于WHO全球健康观察站的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Estimated number of malaria deaths" (MALARIA_EST_DEATHS) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观测站的官方OData应用程序编程接口,并经过系统性重构,封装为采用统一模式(Schema)的Parquet文件格式,专为机器学习场景优化。数据聚焦于世界卫生组织非洲区域的46个成员国,收录了2000年至2024年间“疟疾估计死亡人数”(MALARIA_EST_DEATHS)指标的国家级观测值,共计1123条记录。在构建过程中,所有数值均提取自浮点精度的NumericValue字段,而非展示字符串,并包含了置信区间上下界,从而确保了数据的高精度与科学性。
特点
该数据集的核心特点在于其精确的统一性与丰富的标注信息。其为每个国家每个年份提供了单一的数值估计,避免了亚维度的分层噪声,简化了时间序列分析。此外,数据集具备清晰的结构化模式,包含指示符代码、国家ISO代码、年份、数值估计、置信区间边界及展示字符串等字段,极大地便利了数据筛选与建模。尤为重要的是,数据来源于世界卫生组织这一权威机构,并采用知识共享署名4.0国际许可协议,确保了数据来源的权威性与合法合规的开放使用。
使用方法
使用者可通过Hugging Face的datasets库便捷加载,执行`load_dataset("electricsheepafrica/africa-who-estimated-number-of-malaria-deaths")`即可获取训练集。返回的数据可直接转换为Pandas DataFrame进行深度分析。为获得国家级全人口统计估计,建议筛选dim1字段为`SEX_BTSX`或为空的行。对于特定国家的时序分析,可直接按国家代码过滤并按年份排序,从而高效构建回归或分类任务所需的数据管道。
背景与挑战
背景概述
疟疾作为非洲地区长期面临的重大公共卫生挑战,其死亡人数的准确估算对于评估疾病负担、制定防控策略及分配医疗资源至关重要。世界卫生组织全球卫生观察站(WHO GHO)自2000年起持续监测非洲各国疟疾死亡数据,但原始数据分散且格式不一,难以直接用于机器学习建模。为弥合这一鸿沟,Electric Sheep Africa团队于2024年整合并重构了该数据集,收录了46个非洲国家2000至2024年间共1123条疟疾死亡估算记录,涵盖点估计值及其置信区间。该数据集以CC BY 4.0许可发布,旨在为流行病学建模、健康指标预测及区域间比较分析提供标准化、机器可读的高质量资源,显著推动了非洲健康数据科学与人工智能应用的发展。
当前挑战
该数据集的核心挑战在于其解决的领域问题:疟疾死亡估算值受限于报告系统不完善、诊断能力差异及数据缺失,导致点估计伴随显著不确定性,而现有机器学习模型往往忽视置信区间信息,难以全面量化风险。在构建过程中,团队需处理WHO OData API返回的异构数据结构,包括不同数据类型(字符串型显示值与浮点型数值)的转换对齐,以及部分年份或国家置信区间数据的缺失问题。此外,数据按性别、居住地等维度分层时会产生多个子行,如何在保留细粒度信息的同时避免膨胀原始观测数量,对数据整合与模型输入设计提出了严苛要求。
常用场景
经典使用场景
该数据集聚焦于非洲大陆各国疟疾死亡人数的官方估算,涵盖2000年至2024年间46个国家的年度观测值,是流行病学建模与健康指标追踪领域不可或缺的时空数据资源。经典使用场景包括利用时间序列分析揭示疟疾死亡率的长期演变趋势,借助面板数据模型评估国家间健康干预效果的异质性,或作为因变量构建多因素回归模型以识别气候、医疗卫生资源等变量对疟疾致死风险的影响。数据集以标准化格式提供点估计及其置信区间,为可靠统计推断奠定了基础。
解决学术问题
该数据集直面非洲疟疾负担量化研究中的核心挑战——缺乏统一的长期、跨国界死亡估算数据。它解决了区域内历史健康监测数据碎片化、格式不兼容等难题,使学者能够跨越国家边界系统分析疟疾防治进展与滞后区域。通过提供置信区间,研究得以对不确定性进行量化,从而支持更严谨的流行病学归因分析。该数据集推动了全球卫生公平性议题的实证研究,为评估联合国可持续发展目标中的疟疾相关指标提供了可复现的数据基础。
衍生相关工作
基于该数据集,学界已衍生出若干标志性工作,包括利用贝叶斯时空模型重建非洲疟疾死亡率的完整时空图谱,以及结合地理信息系统探究死亡热点的空间集聚模式。研究者还将其与WHO下属的其他健康指标数据集进行联合分析,构建多病种共病模型,揭示疟疾与营养不良、HIV等健康问题的交织影响。这些衍生研究系统性地提高了对非洲健康脆弱性的理解,并催生了面向数据驱动的全球健康决策支持工具。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务