electricsheepafrica/africa-who-nlx-person-years-lived-between-ages-x-and-xn
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-nlx-person-years-lived-between-ages-x-and-xn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2021年间,世界卫生组织全球健康观察站(WHO GHO)指标nLx - person-years lived between ages x and x+n(LIFE_0000000033)的国家级观测数据。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO GHO OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,58,938行数据,并包含性别和年龄组的子维度。
This dataset contains country-level observations for the WHO GHO indicator nLx - person-years lived between ages x and x+n (LIFE_0000000033) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with 58,938 rows and includes sub-dimensions for sex and age groups.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区“nLx——年龄x至x+n之间的生存人年数”这一生命表指标(代码LIFE_0000000033)。数据经过系统化抽取与整理,以Parquet格式重新封装,确保一致的列式存储结构。所有数值均采用浮点精度的原始字段(NumericValue),而非显示字符串,同时保留了置信区间上下界(value_low与value_high)信息。数据集覆盖2000至2021年间47个非洲国家,共计58,938条观测记录,并按照WHO AFRO区域进行筛选,为机器学习任务提供了开箱即用的可靠基础。
特点
该数据集具有鲜明的多层次结构特征,通过dim1与dim2维度字段呈现性别、居住区域类型等亚类分组信息,其中性别维度包含总体(SEX_BTSX)、女性(SEX_FMLE)与男性(SEX_MLE)三种分层。每条记录代表国家、年份与维度组合的唯一观测,支持精细化分析与跨层聚合。数据规模适中(1K至10K级别),但时间跨度长、国家覆盖广,兼具面板数据的时间序列与横截面双重属性。置信区间字段的纳入进一步增强了不确定性量化能力,适合回归与分类任务的双重应用需求。
使用方法
用户可通过HuggingFace的datasets库一行代码加载数据集,并将其转换为Pandas DataFrame进行后续操作。为获取特定分析场景下的子集,建议依据dim1字段进行过滤:例如筛选以_BTSX结尾或缺失dim1值的记录以获取国家总体水平数据,或根据country_iso3字段提取单个国家的时间序列。数据集的列结构清晰,包含indicator_code、country_iso3、year、value_numeric等核心字段,可直接用于监督学习建模。引用时需注明原始数据来源为WHO GHO,并遵循CC BY 4.0许可协议。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,经Electric Sheep Africa团队重新整理后发布于HuggingFace平台,聚焦于非洲地区2000至2021年间“nLx——年龄区间x至x+n内生存人年数”这一关键生命表指标。核心研究问题在于通过标准化、机器可读格式,提供涵盖47个非洲国家、近5.9万条观测值的结构化数据,为区域人口健康分析、寿命预期测算及流行病学建模提供基础。该数据集不仅补充了非洲大陆在生命统计领域的空缺,更通过统一的Parquet格式和明确的置信区间字段,降低了跨国家、跨年份比较的复杂性,对推动非洲健康数据科学与政策制定具有重要影响力。
当前挑战
该数据集面临的挑战首先体现在领域问题上:生命表指标虽能反映人群生存状况,但受制于非洲各国统计能力不均,原始数据可能存在漏报或延迟,导致估计值的置信区间较宽,影响模型预测的信噪比。其次,构建过程中需处理多重分层维度(如性别、城乡),不同维度组合(如SEX_BTSX与SEX_FMLE)交织,增加了数据清洗与聚合的复杂度;同时,WHO API提供的显示字符串与数值字段间需严格对齐,置信区间缺失值的管理也要求细致的预处理策略。此外,跨时22年的时间序列中,部分国家或年份的数据稀疏性构成了回归任务中样本不平衡的挑战。
常用场景
经典使用场景
该数据集聚焦于非洲地区不同年龄段剩余预期寿命的度量——即年龄区间x至x+n之间的存活人年数(nLx),是生命表编制的核心要素之一。其经典使用场景在于构建非洲各国分性别、分年龄段的精细生命表,用以揭示区域人口的健康存活模式。研究人员常依据该数据集中'value_numeric'列的点估计值,结合'SEX'和年龄维度信息,绘制完整的存活曲线,或计算特定年龄段的死亡风险与生存概率。这类分析为理解非洲大陆人口老龄化进程、疾病负担分布以及卫生政策干预效果提供了量化基础。
衍生相关工作
基于该数据集衍生的经典工作主要集中在三个方向:一是开发适用于非洲人口结构的死亡率预测模型,如结合贝叶斯分层框架的Lee-Carter模型延伸,用以外推未来几年的存活概率;二是构建非洲健康不平等指数,通过对分性别、分国家存活人年数据的再分析,揭示区域内部的生命长度鸿沟;三是作为训练数据融入地理空间机器学习系统,将nLx指标与气候、经济、医疗可及性等协变量关联,生成高分辨率的存活期制图。这些工作进一步推动了'健康非洲'数据生态的建设,使原本孤立的WHO统计数据焕发出跨学科的分析活力。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区特定年龄区间累积生存人年数(nLx)的时空分布格局,其研究前沿正从传统的描述性流行病学统计向机器学习驱动的预测建模与健康公平性分析演进。结合WHO全球健康观测站数据,研究者正利用该指标构建非洲国家间预期寿命的精细量化模型,以揭示性别、城乡差异等亚维度因素对生命历程的异质性影响。当前热点包括将nLx数据与气候变迁、传染病暴发等环境变量进行多源融合,以评估健康风险暴露的长期累积效应。此外,该数据集的发布填补了非洲地区标准化生存度量在ML-ready格式上的空白,为开发可解释的区域健康预警系统提供了关键训练基础,对推动《2030年可持续发展议程》中健康目标在撒哈拉以南非洲的精准监测具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



