five

electricsheepafrica/africa-who-mean-fasting-blood-glucose-ncdgluc02

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-fasting-blood-glucose-ncdgluc02
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标平均空腹血糖(mmol/l)(粗略估计)(NCD_GLUC_02)在非洲国家的国家级观察数据,时间跨度为1980年至2009年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖46个非洲国家,总行数为2,760行,并按性别等子维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator "Mean fasting blood glucose (mmol/l) (crude estimate)" (`NCD_GLUC_02`) across African nations, spanning 1980–2009. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 46 African nations with a total of 2,760 rows and is stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,针对非传染性疾病指标“平均空腹血糖(毫摩尔/升,粗估算值)”(代码NCD_GLUC_02)进行了系统性整理。数据覆盖1980年至2009年间46个非洲国家的观测记录,共计2760条,严格限定于WHO非洲区域(AFR)。所有数值均采用浮点精度的`NumericValue`字段,而非展示字符串,同时附带了可获取的置信区间上下界。数据以Parquet文件格式统一封装,并保持一致的列式结构,便于机器学习场景下的直接调用。
特点
数据集的核心特色在于其结构化与多维性。每条记录都包含国家ISO3代码、年份、数值估计以及可选的置信区间,支持点估计与不确定性量化。数据按性别(男性、女性)等维度进行分层,通过`dim1`和`dim2`字段标识不同的子群体,允许研究者筛选特定层或跨层聚合。这种设计使得面板数据既可用于回归建模预测血糖水平,也能进行分类任务分析国家或性别间的差异,尤其适合非洲区域的时间序列与跨国家比较研究。
使用方法
使用该数据集极为便捷,可通过HuggingFace的`datasets`库直接加载为DataFrame对象。加载后,用户可利用`dim1`字段筛选双性别的全国层次数据,或通过`country_iso3`与`year`列进行特定国家的时间序列分析。例如,若要研究肯尼亚的血糖变化趋势,仅需筛选`country_iso3`为'KEN'的记录并按年份排序。数据集同时支持与其它WHO GHO指标联合分析,为非洲公共卫生领域的因果推断或预测模型提供了标准化的输入格式。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,经由Electric Sheep Africa团队重新打包为机器学习就绪格式,发布于2024年前后。数据集聚焦于非洲地区46个国家1980至2009年间平均空腹血糖(mmol/l,粗略估计值)的年度观测,总计2760条记录,涵盖性别分层维度。作为非洲健康大数据统一存储库的核心组成部分,该数据集为跨时空分析非洲非传染性疾病(如糖尿病)的流行病学趋势提供了标准化、可复现的数据基础,有力推动了全球卫生公平性研究与机器学习在公共卫生领域的应用。
当前挑战
该数据集在领域问题上面临双重挑战:一是非洲地区糖尿病监测数据长期稀疏,传统调查在时间和空间上高度碎片化,难以支撑精细化的疾病负担评估与政策干预;二是多源异构数据(如WHO、国家卫生系统)在定义、测量方法和报告周期上不一致,导致跨国家、跨年份的可比性不足。构建过程中,需从WHO OData API提取原始数据并处理缺失值、异常值及置信区间不完整的问题,同时确保性别分层数据(如SEX_BTSX、SEX_MLE)的无损整合,这对数据清洗与模式一致性提出了严苛要求。
常用场景
经典使用场景
在非传染性疾病流行病学研究中,该数据集常被用于构建非洲国家空腹血糖均值的时序预测模型,以揭示1980至2009年间血糖水平的变化趋势。研究人员可借助其细粒度的性别分层信息,分析不同性别群体的血糖差异,并结合区域编码开展国家间的比较研究。数据集中包含的置信区间信息,使得不确定性量化与稳健性评估成为可能,特别适用于探索社会经济因素与代谢健康之间关联的回归分析任务。
实际应用
在实际应用中,该数据集为非洲公共卫生政策制定者提供了基准数据,用于监测各国糖尿病预防目标的进展。世界卫生组织及区域卫生机构可基于其输出,识别血糖控制效果不佳的高风险国家,优化资源分配。此外,该数据能被整合进健康预警系统,辅助预测未来糖尿病患病率,指导临床筛查策略和初级保健干预措施的部署。
衍生相关工作
围绕该数据集,学界已衍生出多项典型工作。例如,研究者将其与联合国人类发展指数结合,构建多因素回归模型以阐释血糖水平与经济发展阶段的关联。另有工作利用该数据训练时序生成对抗网络,模拟缺失年份的血糖估计值,提升非洲健康指标的时间覆盖度。此外,该数据集常被用作基准,评估跨区域健康预测模型的泛化能力,推动迁移学习在公共卫生领域的应用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务