electricsheepafrica/africa-who-raised-fasting-blood-glucose-ncdgluc04
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-raised-fasting-blood-glucose-ncdgluc04
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“空腹血糖升高(≥7.0 mmol/L)(年龄标准化估计)”(NCD_GLUC_04)在非洲国家的国家级观察数据,时间跨度为1980年至2014年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Raised fasting blood glucose (>=7.0 mmol/L) (age-standardized estimate)" (NCD_GLUC_04) across African nations, spanning 1980–2014. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区年龄标准化后的空腹血糖升高(≥7.0 mmol/L)指标(代码NCD_GLUC_04)。数据覆盖1980年至2014年间46个非洲国家,共收录4830条观测记录。所有数值均采用浮点精度的原始字段(NumericValue),并集成了置信区间上下限(value_low、value_high)。数据集以Parquet格式统一存储,由Electric Sheep Africa团队重新打包为机器学习就绪的标准化结构,确保了字段一致性。
特点
该数据集的核心特色在于其分层结构设计:包含按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度划分的子指标,每一条记录对应国家、年份与特定维度的唯一组合,支持灵活的下钻分析。同时,数据提供点估计值、上下置信区间以及格式化展示字符串,兼顾统计精确性与可读性。覆盖46个非洲国家、跨越35年的长时序数据,为研究非洲大陆糖尿病流行病学变迁提供了珍贵的历史基线。
使用方法
用户可通过HuggingFace datasets库直接加载数据集,例如执行`load_dataset("electricsheepafrica/africa-who-raised-fasting-blood-glucose-ncdgluc04")`即可获得训练集。加载后可使用`.to_pandas()`方法转换为DataFrame进行灵活操作。若要获取两性合计的国家级数据,可过滤`dim1`字段以`SEX_BTSX`结尾的行;若要分析特定国家的时间趋势,则可按`country_iso3`字段筛选并依据`year`排序。该数据集适用于分类与回归等监督学习任务。
背景与挑战
背景概述
非洲地区非传染性疾病负担的日益加重已成为全球公共卫生领域的焦点议题,其中血糖代谢异常是心血管疾病、糖尿病及过早死亡的关键风险因素。世界卫生组织全球健康观察站(WHO GHO)自1980年起系统监测非洲各国空腹血糖升高的流行趋势,以评估区域健康干预成效。该数据集由Electric Sheep Africa团队于近期整理发布,聚焦指标NCD_GLUC_04,即年龄标准化高空腹血糖(≥7.0 mmol/L)的估计值,覆盖1980至2014年间46个非洲国家的4830条观测记录。数据集以统一架构整合WHO官方OData API数据,并保留置信区间与性别等分层维度,为机器学习驱动的非洲健康预测与流行病学分析提供了标准化、机器就绪的宝贵资源,对缩小区域健康数据鸿沟、支持循证决策具有重要影响。
当前挑战
该数据集聚焦的领域问题在于:非洲地区因医疗记录系统薄弱与监测覆盖面不足,高空腹血糖患病率的精确估算长期受限于数据稀疏性与质量参差不齐,导致难以有效追踪糖尿病等非传染性疾病的区域性动态。构建过程中的挑战尤为突出:首先,需从WHO多源API中提取43年跨度的历史数据,并统一不同时期变量定义与缺失编码;其次,数据需过滤仅保留非洲区域(AFRO),并协调46个国家间不一致的统计口径,如亚维度(性别与居住地类型)的分层与聚合;再者,需将NumericValue字段作为主要机器学习目标,同时处理置信区间下限与上限的不完整标注,确保时间序列的连续性与模型训练的可靠性。
常用场景
经典使用场景
在世界卫生组织全球卫生观察站的框架下,非洲地区空腹血糖升高(≥7.0 mmol/L)的年龄标准化估计数据集为流行病学与公共卫生研究提供了宝贵的纵向数据资源。该数据集覆盖46个非洲国家、跨越1980年至2014年,包含4830条观测记录,并细分性别维度。最经典的用途是用于分析非洲大陆高血糖患病率的长期演变趋势,通过时间序列分析揭示不同国家及性别群体的疾病负担变化,进而评估区域卫生政策的干预效果。
解决学术问题
该数据集系统性地整合了非洲地区稀疏分散的空腹血糖统计数据,解决了长期以来因数据碎片化导致的跨区域比较难题。研究者借此可进行多国横向对比,识别高血糖风险的地理分布异质性;同时支持纵向建模,量化社会经济、城市化等宏观因素与代谢健康的关联。其引入的置信区间字段更推动了不确定性量化方法在公共卫生领域的发展,显著提升了低资源地区疾病负担估算的稳健性。
衍生相关工作
基于该数据集衍生出一系列具有影响力的学术工作,例如利用时空贝叶斯模型绘制非洲高血糖风险图谱,揭示患病率在撒哈拉以南非洲呈梯度上升的模式;另有研究结合气候和膳食数据,通过多模态融合建模探讨环境因素与血糖升高的复杂交互作用。在方法学层面,该数据集被用作基准测试,比较小样本条件下多重插补与贝叶斯分层回归对缺失年份的填补效果,推动了低资源区域疾病流行病学分析方法的标准化进程。
以上内容由遇见数据集搜集并总结生成



