electricsheepafrica/africa-who-tx-person-years-lived-above-age-x
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tx-person-years-lived-above-age-x
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2021年间,世界卫生组织全球健康观察站(WHO GHO)指标Tx - person-years lived above age x的国家级观测数据。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段,而非显示字符串。此外,数据还包含可用的置信区间边界(value_low,value_high)。数据集覆盖了47个非洲国家,总行数为58,938。数据还按性别等子维度进行了分层。
This dataset contains country-level observations for the WHO GHO indicator Tx - person-years lived above age x (`LIFE_0000000034`) across African nations, spanning 2000–2021. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 58,938 rows. The data is also stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区“Tx - 超过x岁的人年数”这一卫生指标。数据经过系统化抽取与整理,以Parquet格式存储,包含2000年至2021年间47个非洲国家的观测记录,总计58,938行。所有数值均采用精确的浮点型字段(NumericValue),并附有可信区间上下界(value_low, value_high),同时保留了性别、居住地区类型等分层维度(dim1/dim2),便于按需筛选或聚合分析。
特点
该数据集具备高度的结构化与标准化特征,每个数据点均包含指标代码、国家ISO代码、年份、数值估计及置信区间等关键字段。其分层维度设计允许研究者针对性别(如男女合计、男性、女性)或其它亚组进行细粒度分析。作为Electric Sheep Africa项目的一部分,数据集采用统一的机器学习友好型模式,可直接用于分类或回归任务,为非洲健康领域的量化研究提供了可靠的数据基础。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,例如使用load_dataset()函数获取训练集,并转换为Pandas DataFrame进行后续操作。建议在分析时先过滤dim1字段以聚焦于特定分层(如全国层面的男女合计数据),或按国家与年份排序以构建时间序列。数据集适用于回归建模、时间趋势分析、跨国比较等任务,也可结合WHO官方文档进一步解读指标内涵。
背景与挑战
背景概述
非洲大陆长期以来面临着严峻的公共卫生挑战,尤其是在人口健康监测与统计方面,数据稀缺、格式不统一等问题严重制约了政策制定与科学研究的进展。世界卫生组织(WHO)通过其全球卫生观察站(GHO)项目,持续发布包括‘Tx - person-years lived above age x’在内的多项健康指标,旨在量化特定年龄以上人群的累计生存年数,为疾病负担评估与健康干预效果衡量提供基础。该数据集由Electric Sheep Africa团队于近年整理并发布,涵盖了2000年至2021年间47个非洲国家的观测数据,共计近6万条记录,并采用了统一、便于机器学习处理的Parquet格式,显著提升了数据的可获取性与可用性。通过标准化编码与分层维度设计,该数据集为跨国家的健康寿命比较、人口老龄化趋势分析以及区域卫生政策制定提供了坚实的数据支撑,对推动非洲地区循证健康研究具有重要影响。
当前挑战
该数据集所解决的领域问题核心在于,非洲地区长期以来缺乏长期、标准化的健康寿命统计资源,使得研究人员难以系统评估人口老龄化进程、疾病负担分布以及健康干预效果。传统数据源往往格式繁杂、口径不一,给大规模的时间序列分析与跨国家比较带来巨大障碍。在数据集构建过程中,主要挑战包括:从WHO GHO API中提取原始数据时需处理多级分层结构(如性别、年龄组别),并确保所有数值字段(包括置信区间)的准确转换;需要统一47个国家间可能存在的报告口径差异,同时兼顾各国数据的时间连续性与完整性。此外,数据稀疏性(如某些小岛国或冲突地区年份缺失)以及各维度组合带来的数据冗余问题,也对数据集的高效存储与可用性提出了较高要求。
常用场景
经典使用场景
该数据集记录了2000年至2021年间47个非洲国家‘Tx - 特定年龄以上生存人年数’这一重要健康指标,源自世界卫生组织全球卫生观察站。其最经典的使用场景在于人口健康统计与寿命分析领域,研究者可借助该数据精准计算不同性别、年龄段的生存函数与生命表参数,从而量化非洲各国人口的健康老龄化进程,并识别出地区间预期寿命的异质性模式。通过整合时间序列与空间维度的信息,该数据集为构建区域人口动态模型提供了坚实的数据基础,堪称非洲健康人口学研究的关键资源。
实际应用
在实际应用层面,该数据集为公共卫生政策制定者和国际健康机构提供了宝贵的决策依据。基于‘生存人年’数据,各国卫生部门可精准评价国家卫生体系的绩效,识别脆弱人群,并优化资源分配,例如针对特定性别或年龄组设计精准的健康干预项目。非政府组织与国际发展机构亦可借助该数据分析疾病控制策略(如艾滋病或疟疾防治)对人群生存时间的实际增益,从而调整援助优先级并追踪干预成效,最终推动非洲区域健康公平性的实质性改善。
衍生相关工作
基于此数据集,学术界已衍生出一系列具有广泛影响力的经典工作。在方法学层面,研究者开发了针对非洲健康数据的缺失值插补算法与多水平回归模型,以应对低资源环境中数据稀疏的挑战;在实证研究方面,衍生了跨区域的生命表动态比较分析,以及性别与城乡维度下的生存差异量化研究。此外,该数据集常与疾病负担数据、气候环境变量以及社会经济指标结合,构建预测模型以探索影响非洲人口寿命的复杂系统因素,这些工作共同推动了‘数据驱动的全球健康’这一交叉学科范式的形成。
以上内容由遇见数据集搜集并总结生成



