five

electricsheepafrica/africa-who-mean-fasting-blood-glucose-ncdgluc01

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-fasting-blood-glucose-ncdgluc01
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1980年至2014年间,世界卫生组织全球健康观察指标(GHO)中关于平均空腹血糖(mmol/l)(年龄标准化估计)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator Mean fasting blood glucose (mmol/l) (age-standardized estimate) across African nations, spanning 1980–2014. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区各国年龄标准化后的平均空腹血糖水平(单位:mmol/l),对应指标代码NCD_GLUC_01。原始数据经过系统化的清洗与重构,以Parquet格式存储,确保了一致的列模式与高效的数据读取。数据集保留了浮点精度的数值字段作为核心机器学习目标,并纳入了可用时的置信区间上下界。所有观测记录均依据WHO AFRO区域(ParentLocationCode = 'AFR')进行过滤,涵盖46个非洲国家从1980年至2014年的3,220条时序观测,同时通过dim1/dim2列呈现了如性别分层等子维度信息,为多维度分析提供了结构化的基础。
特点
本数据集的核心特色在于其高度结构化与机器学习友好性。其模式清晰,包含指标代码、国家ISO代码、年份、数值估计及置信区间等关键列,同时支持按性别(SEX_FMLE、SEX_MLE)等维度进行子集筛选。数据源自权威的WHO GHO官方指标,经过规范化处理后,每一行代表国家×年份×维度的唯一组合,便于进行跨国家、跨年份的趋势分析或群体比较。此外,数据集内含的时间跨度长达35年,为长期流行病学研究提供了宝贵的时间序列资源,而统一的CC BY 4.0开源许可则促进了学术与公共健康领域的广泛复用。
使用方法
用户可通过Hugging Face的datasets库一键加载该数据集,例如使用load_dataset("electricsheepafrica/africa-who-mean-fasting-blood-glucose-ncdgluc01")获取训练集,并轻松将其转换为Pandas DataFrame进行后续处理。对于需要去除性别分层的国家层面分析,可按dim1列为SEX_BTSX或缺失值进行过滤;若需追踪特定国家如肯尼亚的血糖变化趋势,则可通过筛选country_iso3列并按年份排序实现。数据集同时适用于分类与回归任务,其数值型目标变量和丰富的分类特征为构建预测模型或进行统计推断提供了直接可用的结构化输入。
背景与挑战
背景概述
在全球非传染性疾病负担日益沉重的背景下,空腹血糖水平作为糖尿病诊断与监测的核心指标,其长期趋势分析对公共卫生决策具有至关重要的意义。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新整理封装,旨在提供非洲大陆46个国家自1980年至2014年间年龄标准化后的平均空腹血糖估计值。作为GHO指标NCD_GLUC_01的具体实现,该数据集通过统一的Parquet格式与结构化模式,为机器学习驱动的区域健康研究提供了高质量、可复用的基准资源,尤其填补了非洲地区长期血糖监测数据标准化存储的空白,对理解该区域糖尿病流行病学演变及评估干预措施效果具有深远影响。
当前挑战
该数据集所解决的核心领域挑战在于,非洲地区长期缺乏统一、机器可读的空腹血糖监测数据,严重制约了基于数据驱动的糖尿病负担评估与政策模拟。现有统计往往因国家间数据采集标准不一、指标定义模糊或格式混乱而难以直接用于跨时空比较分析。此外,数据集构建过程中面临诸多具体困难:原始WHO数据通过OData API获取,需处理不同版本间的字段名称与值类型差异;观测值包含按性别等维度分层后的多行记录,需设计稳健的过滤与聚合逻辑;置信区间等辅助信息虽被保留,但部分年份或国家存在缺失值,需在维持数据完整性的前提下合理标注,以确保后续建模任务的准确性和可靠性。
常用场景
经典使用场景
该数据集以世界卫生组织全球卫生观察站提供的非洲国家人均空腹血糖均值(经年龄标准化调整)为核心指标,覆盖1980年至2014年间46个非洲国家的年度观测数据。作为典型的表格型回归与分类任务数据集,其经典应用场景包括构建基于时间序列的流行病学预测模型,例如利用国家层面的人口统计或社会经济特征来推断未来数年血糖水平的变化趋势。此外,研究者可借助性别等子维度进行分层分析,探索不同群体间的代谢健康差异,为慢性非传染性疾病的宏观监测提供量化支撑。
实际应用
在实际应用中,公共卫生部门和国际组织可利用该数据集进行非洲各国的糖尿病负担动态评估,辅助制定针对性的筛查与干预策略。例如,通过分析长期血糖趋势与医疗资源分布的关系,可以优先识别高负担地区并优化资源调配。同时,该数据可为全球疾病负担研究及可持续发展目标中健康指标的监测提供基准输入,便于定期追踪各国在降低非传染性疾病早死率方面的执行效果,从而提升健康政策的循证决策水平。
衍生相关工作
基于该数据集衍生的经典工作主要包括从气候、饮食结构及城市化进程等多维视角解析非洲血糖水平变迁的研究。例如,学者们常将其与气象数据集关联,构建面板回归模型以量化高温热浪对人群代谢功能的影响;或结合夜间灯光遥感数据,探讨城市化速率与糖尿病风险之间的非线性关系。此外,该数据也被用作机器学习基准测试中的目标变量,推动了适用于小样本、弱标注场景的时间序列预测模型的开发,拓展了AI在低频统计领域的应用边界。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务