electricsheepafrica/africa-who-prevalence-of-diabetes-enceagestd
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-diabetes-enceagestd
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了非洲国家在1990年至2022年间,世界卫生组织全球健康观察站(WHO GHO)关于年龄标准化糖尿病患病率(NCD_DIABETES_PREVALENCE_AGESTD)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精确字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Prevalence of diabetes, age-standardized (NCD_DIABETES_PREVALENCE_AGESTD) across African nations, spanning 1990–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区年龄标准化后的糖尿病患病率这一关键健康指标。Electric Sheep Africa团队将原始数据重新整合,以Parquet格式存储并规定了统一的列模式,确保数据可直接用于机器学习。数据集涵盖了1990年至2022年间47个非洲国家共计9,306条观测记录,所有数值均从`NumericValue`字段提取以保持精度,并包含了置信区间上下限(`value_low`、`value_high`)作为辅助信息。
特点
此数据集最显著的特点在于其统一的架构设计与多维度的分层信息。每条记录不仅包含患病率的点估计值,还提供了性别(SEX)等子维度的细分数据,允许研究者通过`dim1`和`dim2`字段精确筛选特定的亚群,例如仅关注男女总体的全国性数据。此外,数据集保留了原始显示字符串(`value_display`)和最后更新时间戳,增强了数据的可追溯性与透明度。丰富的上下文信息与简洁的字段设计使其兼具易用性与分析深度。
使用方法
使用者可通过HuggingFace的`datasets`库轻松加载该数据集,将其转换为Pandas的DataFrame格式进行后续分析。例如,通过筛选`dim1`字段中以`_BTSX`结尾的条目,即可快速获取针对两性总体的全国水平数据。此外,按国家代码与年份进行过滤和排序,能够方便地提取特定国家(如肯尼亚)的患病率时间序列,为流行病学趋势分析或机器学习建模提供结构化的输入数据。
背景与挑战
背景概述
在全球非传染性疾病负担日益加剧的背景下,糖尿病已成为非洲地区最严峻的公共卫生挑战之一。世界卫生组织(WHO)全球卫生观察站(GHO)于2022年发布了“年龄标准化糖尿病患病率”指标(NCD_DIABETES_PREVALENCE_AGESTD),并由Electric Sheep Africa团队重新整合为该数据集。该数据集覆盖1990年至2022年间47个非洲国家的9306条观测记录,核心研究问题在于量化非洲大陆不同国家、性别及时间维度上的糖尿病患病率水平,为流行病学建模、公共卫生政策制定及机器学习预测提供标准化、机器可读的数据基础。其影响力体现在:首次以统一的Parquet格式对WHO官方糖尿病指标进行非洲区域级整合,填补了非洲健康数据在结构化、可复用方面的空白,有力推动了数据驱动下的全球健康不平等研究。
当前挑战
该数据集所应对的领域问题挑战在于:非洲糖尿病患病率数据长期存在来源分散、标准不一、时间序列不完整等问题,严重制约了对该地区疾病负担的精准评估与干预策略的优化。构建过程中面临的挑战包括:1) 原始数据源自WHO GHO的OData API,不同年份和国家的数据采集标准、缺失值处理方式存在差异,需进行大量清洗与一致性校验;2) 数据按性别、居住地区等多维度分层,导致每个国家-年份组合生成多条记录,需设计合理的聚合或筛选策略以避免分析偏差;3) 置信区间(value_low, value_high)字段仅部分可用,缺失值需谨慎处理以确保建模鲁棒性;4) 跨2022年时间窗口的数据动态更新,要求数据集具备版本控制和可复现性维护机制。
常用场景
经典使用场景
该数据集聚焦于世界卫生组织全球卫生观察站(WHO GHO)中经年龄标准化的糖尿病患病率指标,覆盖47个非洲国家从1990年至2022年的时序观测数据。在流行病学与公共卫生研究中,它常用于跨国家、跨性别的糖尿病负担纵向分析,研究者可通过筛选性别维度(如男女合并或分性别)与国家层级数据,构建时间序列回归模型,揭示非洲大陆糖尿病患病率的演变趋势与区域异质性。
衍生相关工作
该数据集的衍生工作包括基于其构建的非洲糖尿病风险预测模型、多指标联合分析(如结合肥胖、高血压患病率)的共病网络研究,以及引入环境变量(如城市化率、气温)的时空建模。此外,它被集成到Electric Sheep Africa统一数据管线中,促进了跨数据集迁移学习与多模态健康分析,催生了诸如无国界糖尿病趋势归因、年龄标准化指标对比基准等系列研究。
数据集最近研究
最新研究方向
在全球非传染性疾病负担持续攀升的背景下,非洲大陆的糖尿病流行病学态势日益成为国际公共卫生焦点。该数据集聚焦于世界卫生组织全球健康观察站所收录的非洲国家年龄标准化糖尿病患病率指标,覆盖1990年至2022年间47个非洲国家的时序观测数据,并包含按性别等维度分层的信息,为机器学习驱动的非洲糖尿病负担建模提供了高质量的结构化数据基础。前沿研究正围绕该数据集展开时空流行病学分析、健康不平等量化以及基于社会决定因素的患病率预测,其意义在于填补非洲地区精细化糖尿病监测数据的空白,助力可持续发展目标中关于非传染性疾病预防控制的精准干预策略制定。
以上内容由遇见数据集搜集并总结生成



