five

electricsheepafrica/africa-who-nqx-probability-of-dying-between-ages-x-and-xn

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-nqx-probability-of-dying-between-ages-x-and-xn
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2021年间,年龄x到x+n之间的死亡概率的国别观察数据。数据来源于WHO Global Health Observatory,并经过重新打包为Parquet格式,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator "nqx - probability of dying between ages x and x+n" (`LIFE_0000000030`) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦非洲地区'年龄x至x+n间的死亡概率'指标(代码LIFE_0000000030)。数据通过OData API获取后,被统一转化为Parquet格式文件,并采用标准化模式进行存储。所有数值均取自高精度的浮点字段NumericValue,同时保留了置信区间上下界,确保统计信息的完整性。数据集涵盖了2000至2021年间47个非洲国家的58,938条观测记录,依据WHO AFRO区域代码筛选,并基于性别、居住地类型等维度进行分层组织。
使用方法
使用该数据集最为便捷的方式是通过Hugging Face的datasets库加载,一行代码即可将58,938条记录转换为Pandas DataFrame,便于后续分析。用户可通过过滤dim1字段(如SEX_BTSX)提取特定性别的全国层面数据,或按country_iso3字段筛选某国(如KEN)的时间序列进行纵向研究。数据集中集成的置信区间列(value_low和value_high)可直接用于构建带误差棒的可视化图表或作为概率模型的约束条件。对于分层结构,聚合跨维度数据时应依据dim1和dim2进行分组统计,以获取整体人群估计值。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新打包为机器学习就绪格式,于2021年发布,聚焦非洲地区。其核心研究问题是通过量化死亡概率(nqx)这一关键生命表指标,揭示非洲各国在2000至2021年间不同年龄段的死亡风险模式。数据集涵盖了47个非洲国家、超过5.8万条观测记录,并提供了按性别等维度分层的细粒度数据,为公共卫生领域的区域比较、政策评估及生命表建模提供了标准化的数据基础,对理解非洲疾病负担和寿命不平等具有重要推动作用。
当前挑战
该数据集所解决的领域挑战在于,非洲地区长期缺乏统一、结构化且机器可读的死亡概率数据,传统的WHO数据多以分散格式呈现,难以用于大规模比较分析或机器学习模型训练。构建过程中面临的核心挑战包括:从WHO的OData API中抽取并清洗不一致的数值字段,将不同维度的分层数据(如性别、年龄组)统一为标准化架构,以及处理置信区间缺失、时间序列不连续和跨国家数据可比性问题,以确保数据集在分类和回归任务中的可靠性与泛化能力。
常用场景
经典使用场景
非洲大陆长期面临疾病负担沉重、医疗资源匮乏与数据体系薄弱的困境,精确刻画人群死亡风险成为公共卫生治理的基础性挑战。该数据集恰如其分地捕捉了非洲47个国家在2000至2021年间分年龄段的死亡概率,涵盖性别与城乡等亚维度,为区域健康不平等研究提供了关键的时间序列观测。最常见的应用场景是构建死亡率预测模型,通过拟合年龄别死亡概率的时序变化趋势,揭示不同国家在传染病与慢性病转型中的独特演变路径。
解决学术问题
在学术研究中,非洲地区长期受困于死亡登记系统不完善所导致的数据缺失问题,使得全因死亡率及年龄别死亡概率的精确估算始终是一个棘手的难题。该数据集通过整合世界卫生组织全球健康观察站的官方统计数据,填补了非洲高分辨率死亡概率数据的空白。研究者能够借助这些可靠的观测值,探讨性别差异对预期寿命的影响、城乡之间死亡风险的异质性,以及不同年龄段人群的健康脆弱性,从而深化对非洲人口健康转型规律的理解。
实际应用
在实际应用中,该数据集的丰富粒度为非洲各国卫生部门与跨国健康项目提供了科学决策的依据。政策制定者可以借助分性别、分年龄段的死亡概率趋势,识别高风险群体并优化有限医疗资源的配置,例如针对婴幼儿或老年人群制定精准的干预策略。此外,可持续发展目标中有关降低非传染性疾病过早死亡率的核心指标,也能在此数据支撑下得到更有效的监测与评估,推动数据驱动的健康治理模式在非洲落地。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区年龄别死亡概率的时空演变规律,为流行病学与人口健康研究提供了高粒度数据支撑。前沿方向包括利用机器学习模型解析死亡率随年龄与时间的非线性动态,并结合性别、城乡等维度探索健康不平等的社会决定因素。当前热点关联世界卫生组织全球健康观察站的数据开放倡议,以及非洲联盟《2063年议程》中对全民健康覆盖的监测需求。数据集通过标准化处理与置信区间附注,显著提升了跨国产出比较的可信度,成为构建非洲健康预警系统与后疫情时代死亡风险预测的重要基石。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务