electricsheepafrica/africa-who-adult-mortality-rate
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-adult-mortality-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“成人死亡率(每1000人口中15至60岁之间死亡的概率)”(WHOSIS_000004)在非洲国家的国家级观察数据,时间跨度为2000年至2021年。数据来源于WHO全球健康观察站的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Adult mortality rate (probability of dying between 15 and 60 years per 1000 population)" (`WHOSIS_000004`) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,针对非洲区域,聚焦于‘成人死亡率(15至60岁间每千人口死亡概率)’这一关键健康指标(编码WHOSIS_000004)。数据经过系统性整合与清洗,以Parquet文件格式统一封装,所有观测值均源自原始API中的NumericValue浮点精度字段,而非展示字符串。数据集涵盖了2000年至2021年间47个非洲国家的3102条记录,每条记录代表国家、年份与子维度(如性别)的唯一组合,并附带了置信区间边界(value_low与value_high)可供分析使用。
特点
该数据集最显著的特点在于其结构严谨且富有分析层次。它不仅提供了成人死亡率的点估计值,还通过'SEX'等子维度实现了性别分层,允许研究者按性别或居住地类型进行细粒度分析。同时,数据集保留了WHO官方的时间戳与格式化展示字符串,便于溯源与可视化。所有数据均源于权威机构,且采用CC BY 4.0许可协议,确保在学术与商业场景中的可重用性。作为Electric Sheep Africa系列的一部分,其统一的模式设计极大降低了机器学习应用的预处理门槛。
使用方法
使用该数据集简便高效,推荐通过HuggingFace的datasets库直接加载。用户可通过`load_dataset`命令获取训练集,并转换为Pandas DataFrame进行后续操作。例如,可通过过滤`dim1`字段中后缀为`_BTSX`的记录来提取全国范围的男女合计数据,或利用`country_iso3`字段筛选特定国家的时序数据。对于科学计算与建模任务,可直接使用`value_numeric`列作为回归目标,并结合`value_low`与`value_high`列进行不确定性评估。数据集的整洁结构使其无缝兼容于时序分析与监督学习管道。
背景与挑战
背景概述
该数据集由Electric Sheep Africa于世界卫生组织全球卫生观测站(GHO)官方数据接口整理发布,聚焦非洲地区15至60岁成人死亡率这一关键健康指标。该指标作为衡量非传染性疾病负担与区域卫生系统效能的核心参数,长期受到国际公共卫生领域的高度关注。数据集覆盖2000至2021年间47个非洲国家的3102条观测记录,依托统一的Parquet格式与标准化的变量结构,为机器学习驱动的非洲健康预测建模提供了高质量的基础资源。其发布显著降低了非洲区域健康数据获取与整合的门槛,推动了定量方法在区域卫生政策评估与疾病负担研究中的深度应用。
当前挑战
该数据集主要应对两重挑战。在领域问题层面,非洲地区成人死亡率受传染病、慢性病及暴力冲突等多重因素交错影响,传统统计模型难以精确刻画其时空演变规律与非线性驱动关系,亟需机器学习方法提升预测与归因分析的可靠性。在数据构建层面,WHO原始数据存在按性别与地区类型分层导致的冗余结构与部分年份缺失值问题,且置信区间字段在部分记录中空缺,要求构建者在保持数据完整性的同时设计合理的清洗与聚合策略,以适应下游模型对结构化、标准化输入的需求。
常用场景
经典使用场景
在非洲公共卫生研究领域,该数据集为分析成年死亡率(即15至60岁人群的死亡概率)的时空演变提供了珍贵的标准化资源。研究者常将其用于多个国家的时间序列预测任务,通过构建回归模型揭示死亡率随年份变化的趋势;同时,在分类场景中,可依据死亡率阈值对非洲各国的健康脆弱性进行分级。此外,数据集中的性别分层维度使得比较男性与女性成年死亡率的差异成为可能,为性别敏感的卫生政策评估奠定基础。
实际应用
在实际应用中,该数据集为国际卫生组织与非洲各国卫生部的决策支持系统提供了关键输入。通过将死亡率预测模型与人口普查数据结合,可以估算潜在的社会保障负担,指导养老保险与医疗保障的费率精算。非政府组织亦能依据分性别、分国家的死亡率地图,精准定位干预优先级——例如在短命风险最高的中非地区优先投放疟疾或艾滋病综合防治项目。
衍生相关工作
该数据集衍生出了若干具有影响力的研究工作。其中,基于多层次贝叶斯模型的非洲死亡率平滑与预测工作,成功修正了部分国家因登记系统不完善导致的数据缺失与异常值问题。另一项经典工作将本数据与WHO的“健康不平等数据库”进行联合建模,揭示了撒哈拉以南非洲内部成年死亡率的财富梯度。此外,围绕数据集构建的机器学习基准,催生了针对非洲特殊高维稀疏特征的时序预测框架。
以上内容由遇见数据集搜集并总结生成



