five

electricsheepafrica/africa-who-ndx-number-of-people-dying-between-ages-x-and-xn

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-ndx-number-of-people-dying-between-ages-x-and-xn
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2021年间,WHO GHO指标ndx - number of people dying between ages x and x+n的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为58,938,并包含不同性别和年龄组的子维度。

This dataset contains country-level observations for the WHO GHO indicator ndx - number of people dying between ages x and x+n across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区,收录了2000至2021年间47个非洲国家在指标“ndx - 年龄组x至x+n间死亡人数”上的观测数据。原始数据经由Electric Sheep Africa团队重新整理,以Parquet格式封装,并采用统一的数据模式。所有数值均取自浮点精度的NumericValue字段,而非显示字符串。对于存在置信区间的情况,数据集一并纳入了上下限值,共计58,938条记录。
使用方法
使用者可通过HuggingFace Datasets库一键加载,如`load_dataset("electricsheepafrica/africa-who-ndx-number-of-people-dying-between-ages-x-and-xn")`,并将其转换为Pandas DataFrame进行后续操作。若要提取两性及全国层面的数据,可筛选dim1字段以_BTSX结尾或为空的行。针对特定国家的时间序列分析,则可通过过滤country_iso3字段并依年份排序实现。数据集列结构清晰,可直接用于预测建模或统计描述。
背景与挑战
背景概述
非洲大陆长期面临严峻的公共卫生挑战,精准的人口死亡年龄分布数据对于制定有效的卫生政策、评估疾病负担及优化资源配置至关重要。世界卫生组织(WHO)全球卫生观测站(GHO)自2000年起系统收集并发布非洲各国年龄别死亡人数指标,然而原始数据分散于不同API接口且格式不一,制约了机器学习与大规模健康分析的深入应用。为此,Electric Sheep Africa团队于近期将WHO GHO指标LIFE_0000000032(ndx——特定年龄区间死亡人数)重新整合为统一的、可直接用于机器学习的数据集,覆盖47个非洲国家2000至2021年的观测记录,总计近6万行。该数据集严格遵循CC BY 4.0许可协议开放共享,为流行病学建模、健康不平等量化及人口学研究提供了标准化、高可复现性的基础资源,显著提升了非洲地区死亡率数据的可访问性与分析效率。
当前挑战
该数据集的核心挑战在于解决非洲地区年龄别死亡数据领域的两大关键难题:其一,原始WHO数据常因漏报、瞒报或统计口径不一导致数值偏差,且部分年份与国家的置信区间缺失,给模型的鲁棒训练带来困难;其二,数据以国家-年份-维度(如性别、城乡)组合的扁平格式存储,同一指标因分层维度不同产生大量冗余行,需要精细筛选以获取纯净的时间序列。构建过程中,团队需处理来自57个国家的庞杂API响应,统一缺失值表示与数据类型,并将字符串形式的显示值转换为浮点数置信区间,同时确保Parquet格式的高效存储与兼容性。这些环节共同对数据清洗、维度聚合与异常值检测提出了极高要求。
常用场景
经典使用场景
在非洲卫生与人口健康研究领域,该数据集被广泛应用于年龄别死亡人数的统计建模与时间序列分析。研究者可依据国家、性别、年份等维度进行精准分层,探讨不同年龄段人群在2000年至2021年间死亡率的变化趋势。其经典使用方式包括构建年龄别死亡率的生命周期表,作为评估区域卫生健康水平的核心指标。
解决学术问题
该数据集有效解决了非洲地区年龄别死亡人数数据碎片化、标准化程度低的问题,为学术界开展跨国比较研究提供了统一基准。它支撑了非洲人口死亡模式分析、区域健康不平等度量以及流行病学过渡阶段判定等关键议题,推动了全球卫生研究中对非洲大陆的精细化认知。
实际应用
在实际应用中,该数据集服务于非洲各国卫生政策制定与健康规划,帮助决策者识别高死亡风险年龄段与脆弱群体。例如,结合子维度性别与地区类型,可用于优化医疗资源布局、评估干预措施效果,并为联合国可持续发展目标中关于降低死亡率的指标监测提供数据支撑。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区各年龄段死亡人数统计,为全球健康研究提供了关键的生命表基础数据。在当下公共卫生领域的前沿探索中,研究者正借助此类精细化的年龄别死亡数据,结合机器学习方法构建非洲大陆的精准死亡率预测模型,以应对气候变化、新兴传染病及医疗资源分配不均等带来的健康挑战。数据集所收录的2000至2021年间47个非洲国家的纵向观测值,尤其是其包含的性别与地域分层信息,为探索非洲人口健康转型的动态轨迹、评估可持续发展目标中健康指标的达成进度,以及推动区域健康政策的数据驱动决策提供了坚实的量化支撑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务