electricsheepafrica/africa-who-age-standardized-ncd-mortality-rate
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-ncd-mortality-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2021年间,世界卫生组织全球健康观察站(WHO GHO)指标年龄标准化非传染性疾病死亡率(每10万人口)的国家级观察数据。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集覆盖了47个非洲国家,总行数为3,102行,并按性别等子维度进行分层。
This dataset contains country-level observations for the WHO GHO indicator Age-standardized NCD mortality rate (per 100 000 population) (`WHS2_131`) across African nations, spanning 2000–2021. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 3,102 rows and is stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区2000至2021年间年龄标准化非传染性疾病死亡率(每10万人口)的观测指标。数据以Parquet格式打包,严格采用API返回的浮点精度数值字段(NumericValue),并保留置信区间上下限(value_low、value_high)。数据集共收录47个非洲国家的3102条记录,每条记录按国家、年份及可能的性别分层维度(如男性、女性、两性合计)组织,形成统一的表格化架构,便于机器学习任务的直接加载。
特点
该数据集的核心特色在于其高度结构化与机器学习的友好性。数据经过去冗余与规范化处理,包含国家ISO代码、年份、点估计值及置信区间等关键字段,并明确区分显示字符串与数值型目标变量。分层维度(如性别)以独立列存储,用户可根据需要按维度过滤或聚合。此外,数据集采用CC BY 4.0开放许可,来源可靠,更新及时,为非洲地区非传染性疾病负担的时间序列分析与跨国家比较提供了高质量、标准化的基础数据资源。
使用方法
使用者可通过HuggingFace的datasets库轻松调用,使用load_dataset函数一键加载数据集,并基于pandas进行后续处理。典型用法包括过滤出两性合计的全国层级数据,或按国家ISO代码提取特定国家的时间序列。对于分层数据,用户可依据dim1与dim2字段筛选所需子群(如仅含男性数据),亦可将不同层级聚合以获取总体估计值。该数据集适用于回归与分类任务,可直接作为时间序列预测、流行病学建模或政策评估的输入特征。
背景与挑战
背景概述
非传染性疾病(NCDs)已成为全球公共卫生领域的重大挑战,尤其在非洲大陆,其疾病负担日益沉重。世界卫生组织(WHO)全球卫生观察站(GHO)系统追踪了多项健康指标,其中年龄标准化非传染性疾病死亡率(WHS2_131)是评估各国慢性病防控成效的核心指标。Electric Sheep Africa团队于2023年系统整合了WHO GHO的公开数据,构建了该数据集,涵盖2000至2021年间47个非洲国家的3,102条观测记录。该数据集通过统一的Parquet格式和规范化模式,首次为机器学习和流行病学研究提供了可直接用于建模的非洲NCD死亡率结构化数据,显著降低了研究者跨数据源整合的时间成本。作为非洲健康大数据开放倡议的一部分,此数据集有力推动了区域公共卫生决策的证据基础建设,并激发了针对非洲疾病负担预测与干预策略的量化研究。
当前挑战
该数据集所应对的领域问题核心在于非洲大陆非传染性疾病监测数据的碎片化与不兼容性。传统上,非洲各国的健康统计指标分散于不同报告与数据库,缺乏统一格式和机器可读性,严重阻碍了区域层面的比较分析与预测建模。构建过程中面临多重挑战:一是原始数据源整合的复杂性,需从WHO GHO的OData API中提取并清洗大量异构字段,确保数值精度一致性;二是稳健处理分层维度的数据,如性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等子维度导致的行冗余,需设计清晰的过滤与聚合逻辑;三是缺失值与置信区间估计的处理,特别是置信界限字段(value_low, value_high)的稀疏性要求研究者谨慎选择插补或丢弃策略。此外,数据集时间跨度虽达22年,但部分国家在早期年份存在数据空白,可能引入时间序列建模中的不平稳性,需要在迁移学习与区域协同训练框架下进一步解决小样本与不平衡问题。
常用场景
经典使用场景
该数据集汇聚了2000至2021年间非洲47个国家的年龄标准化非传染性疾病死亡率(每10万人口)的官方观测记录,为公共卫生研究者提供了跨越时空维度的量化基石。其经典使用场景在于描绘非洲大陆非传染性疾病负担的时空演化图谱,研究者可借助该数据剖析不同性别亚群(如男性、女性与总人口)的死亡率差异,或探索特定国家在特定时段内疾病负担的升降轨迹。通过整合置信区间列,学者还能进行富有统计意义的趋势估计与不确定性推断,为理解非洲非传染性疾病转型的节奏与规模奠定实证基础。
实际应用
在实际场景中,该数据集可直接服务于非洲各国卫生政策制定者与国际发展机构的循证决策。通过可视化平台上动态展示各国死亡率变化,公共卫生部门能够识别高风险群体与滞后地区,据此优化基层医疗资源调配与非传染性疾病早期筛查策略。非营利组织可据此评估社区干预项目的成效,而流行病学研究团队则能将其作为训练机器学习模型的基石,用于预测未来疾病负担走势或模拟防控政策对健康结局的长期影响。跨国制药与健康科技企业亦能依托此数据洞察市场优先级,驱动针对非洲高发慢病(如高血压、糖尿病)的创新解决方案研发。
衍生相关工作
围绕该数据集已涌现出一系列富有影响力的衍生工作。在学术层面,研究者基于其时间序列特性构建了混合效应模型,定量估计了非洲各国非传染性疾病死亡率收敛或分化的动态趋势。另有一些工作聚焦于性别差异的深层机理,结合社会经济协变量揭示了女性在特定慢性病死亡风险中的脆弱性。在方法论层面,该数据被用作评估缺失值插补算法在横断面健康监测数据中稳健性的基准测试集。此外,跨数据集的融合分析亦十分活跃,研究者将其与气候、经济或医疗可及性数据拼接,开拓了环境-慢病关联的因果推断新范式。
以上内容由遇见数据集搜集并总结生成



