electricsheepafrica/africa-who-ex-expectation-of-life-at-age-x
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-ex-expectation-of-life-at-age-x
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2021年间,世界卫生组织全球健康观察指标“ex - expectation of life at age x”(`LIFE_0000000035`)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件的形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "ex - expectation of life at age x" (`LIFE_0000000035`) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集隶属于Electric Sheep Africa系列,专为机器学习应用设计的非洲数据集合,聚焦于世界卫生组织全球健康观测站(WHO GHO)中编号为LIFE_0000000035的指标——'在x岁时的预期寿命'。数据直接通过WHO GHO的OData API获取,覆盖2000年至2021年间47个非洲国家,总计58,938条观测记录。所有数值均取自浮点精度的NumericValue字段,而非格式化展示字符串,并保留了置信区间边界(value_low与value_high)。数据以Parquet格式存储,拥有统一的数据模式,并依据WHO AFRO区域代码(ParentLocationCode = 'AFR')进行区域筛选,确保仅包含非洲国家的相关信息。
特点
数据集的核心特色在于其结构化的多维度设计,支持按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)和居住地类型等维度对预期寿命指标进行分层分析。每一行代表国家、年份与特定维度的唯一组合,使得研究者能够精准筛选或聚合不同亚组的数据。数据模式规范明确,包含indicator_code、country_iso3、who_region、year等核心字段,以及value_numeric、value_low、value_high等数值型字段,便于直接用于表格分类与回归任务。此外,数据遵循CC BY 4.0开放许可,来源权威,更新及时,是研究非洲公共卫生趋势的宝贵资源。
使用方法
使用该数据集极为便捷,可通过Hugging Face的datasets库直接加载为Python环境中的Dataset对象,并便捷地转换为Pandas DataFrame进行深入分析。用户可依据dim1或dim2字段过滤特定分层(例如筛选SEX_BTSX以获取全国两性合计数据),或通过country_iso3字段选取特定国家进行时间序列分析。数据集已预设为ML-ready格式,兼容常见的机器学习框架,可直接用于回归预测或分类建模任务。引用时需注明WHO GHO原始数据来源及Electric Sheep Africa的再封装工作,以确保学术规范与数据溯源。
背景与挑战
背景概述
预期寿命作为衡量人口健康水平与经济社会发展成效的核心指标,长期以来受到全球公共卫生研究者的广泛关注。世界卫生组织全球卫生观察站(WHO GHO)自2000年起系统收集并发布非洲各国分年龄、性别的预期寿命数据,覆盖47个非洲国家,时间跨度达22年。Electric Sheep Africa团队于近年将这些官方数据重新整理为机器学习就绪的Parquet格式,形成了本数据集。其核心研究问题在于为非洲区域的健康不平等分析、长寿决定因素建模以及公共卫生政策评估提供高质量、结构化的数据基础。该数据集凭借统一的模式设计、包含置信区间的数值字段以及多维度分层变量,已成为学界研究非洲人口健康变迁规律的重要数据源,对推动数据驱动的全球健康研究具有显著贡献。
当前挑战
本数据集所应对的领域挑战主要源于非洲地区预期寿命研究长期受限于数据稀缺性、统计口径不一致以及时间序列断裂等问题。传统上,非洲多国缺乏可靠的生命登记系统,导致预期寿命估算存在较大不确定性。在数据构建过程中,挑战集中于将WHO OData API中不同格式的原始观测值统一为一致的数值型字段,同时保留置信区间边界值以支撑不确定性量化分析。此外,数据按性别、居住地类型等多个维度进行分层,每一国家—年份组合对应多条记录,这就要求使用者审慎处理维度筛选与聚合逻辑,以避免因忽略分层结构而产生偏误。数据清洗、缺失值处理以及跨国家、跨年份的可比性维护,也是确保该数据集可靠性与实用性的关键技术难点。
常用场景
经典使用场景
在非洲区域健康与人口学的研究领域中,该数据集为分析特定年龄预期寿命的时空演变提供了标准化、机器可读的宝贵资源。其经典使用场景集中在基于国家的纵向面板数据分析,研究者可借助丰富的性别人口学维度,如男、女及男女合计,构建时间序列模型,从而揭示过去二十年非洲大陆预期寿命的动态轨迹与区域异质性。
解决学术问题
该数据集有效解决了非洲健康研究中长期存在的数据碎片化与格式不一致问题,为定量评估公共卫生政策干预效果提供了可靠依据。通过提供包含置信区间的精确数值,它使学术界能够严谨地分析预期寿命的变化趋势及其性别差异,深化了对社会经济发展、医疗资源分布与人口健康产出之间复杂关系的理解。
衍生相关工作
基于此数据,衍生出了一系列具有代表性的研究工作,涵盖预期寿命的预测模型构建、健康不平等度量与归因分析,以及跨国面板数据的面板回归与生存分析。同时,它也构成了更广泛的非洲健康数据库(如Electric Sheep Africa系列)的核心组件,为构建包含多源健康指标的机器学习预测系统与流行病学模型奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



