five

electricsheepafrica/africa-who-raised-fasting-blood-glucose-ncdgluc03

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-raised-fasting-blood-glucose-ncdgluc03
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“空腹血糖升高(≥7.0 mmol/L)(粗估计)”(NCD_GLUC_03)在非洲国家的国家级观察数据,时间跨度为1980年至2014年。数据集是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了46个非洲国家,总行数为4,830行,并且按照性别等维度进行了分层。

This dataset contains country-level observations for the WHO GHO indicator "Raised fasting blood glucose (>= 7.0 mmol/L) (crude estimate)" (`NCD_GLUC_03`) across African nations, spanning 1980–2014. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 46 African nations with a total of 4,830 rows and is stratified by dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(Global Health Observatory)的OData API,专注于非洲国家中“空腹血糖升高(≥ 7.0 mmol/L)的粗估计值”这一关键健康指标。原始数据经过系统化处理,以Parquet格式重新打包,并保持统一的Schema结构。所有数值均直接取自原始数据中的浮点精度字段`NumericValue`,而非显示字符串,同时保留了置信区间的上下限(`value_low`和`value_high`),以确保数据用于机器学习时的精度和可靠性。最终形成包含46个非洲国家、时间跨度为1980年至2014年、总计4830条观测记录的表格型数据集。
特点
该数据集具备鲜明的区域聚焦与结构化特征:其覆盖范围限定于WHO非洲区域(AFRO),囊括了46个非洲国家的长期面板数据,为区域健康趋势分析提供了珍贵的时间序列视角。数据集的列设计兼顾科学严谨与应用便捷,包含指标代码、国家ISO3代码、年份、点估计值及置信区间等核心字段。值得关注的是,数据支持多个子维度(如性别)的细粒度切分,用户可通过`dim1`、`dim2`字段筛选特定分层(如男性、女性或全性别),从而开展更具针对性的预测建模或流行病学探索。
使用方法
用户可通过HuggingFace的`datasets`库直接加载该数据集,使用`load_dataset`函数即可获取训练集,并快速转换为Pandas DataFrame进行后续分析。推荐采用可视化过滤策略,例如通过`dim1`字段筛选`SEX_BTSX`以获得全国性别的汇总估计,或按`country_iso3`列提取特定国家(如肯尼亚,代码KEN)的时间序列数据。数据集的Schema设计简洁一致,便于与机器学习流水线集成,无论是用于回归任务预测血糖水平,还是作为分类任务的特征基础,均能高效适配。
背景与挑战
背景概述
在全球公共卫生领域,非传染性疾病(NCD)的监测与防控已成为关键议题,其中血糖水平异常作为糖尿病的重要指标,其流行病学数据对制定区域健康政策至关重要。由世界卫生组织(WHO)全球卫生观察站(GHO)于2014年发布的africa-who-raised-fasting-blood-glucose-ncdgluc03数据集,聚焦于非洲地区人群空腹血糖升高(≥7.0 mmol/L)的粗估计值,覆盖46个非洲国家从1980年至2014年的纵向观测记录,共计4830条数据。该数据集通过Electric Sheep Africa项目重新整合为机器学习友好格式,旨在填补非洲大陆在血糖异常监测方面的数据空白,为跨国家、跨时间维度的比较分析提供标准化支持。其核心研究问题在于捕捉非洲地区糖尿病风险的时间演变趋势与地理差异,从而为WHO非洲区域(AFRO)的疾病负担评估和干预资源分配提供量化依据。自发布以来,该数据集已成为研究非洲慢性病流行病学、健康不平等以及卫生系统效能的重要基础资源,推动了数据驱动的非洲公共卫生决策。
当前挑战
该数据集所应对的领域挑战主要体现在非洲地区非传染性疾病监测的长期滞后性,特别是血糖异常数据的稀疏与不一致,导致全球疾病负担估算中存在显著的区域偏差。构建过程中面临多重困难:首先,非洲国家卫生统计系统薄弱,历史数据采集间隔不规律,造成1980–2014年间部分国家年份缺失;其次,WHO原始数据来源包含按性别(SEX)等维度分层(如SEX_BTSX、SEX_FMLE、SEX_MLE),使得非分层分析需谨慎聚合,避免混杂效应;再者,置信区间字段(value_low和value_high)并非完整覆盖所有观测,增加了不确定性量化的复杂性;此外,各国诊断标准与报告机制差异导致数据可比性存疑,而机器学习应用则需额外处理时间序列填补与跨国家特征对齐。这些挑战共同限制了模型在欠采样区域的外推能力,亟需更精细的时空插值技术与稳健的因果推断框架介入。
常用场景
经典使用场景
该数据集聚焦于非洲地区居民空腹血糖升高(≥7.0 mmol/L)的粗估计值,覆盖1980至2014年间46个非洲国家的观测数据。在流行病学与全球健康研究中,它常被用于构建预测模型,以刻画非洲大陆糖尿病风险的时间演化与空间分布规律。研究人员能够借助其标准化的指标代码与分层维度(如性别、城乡),开展多元回归或机器学习分析,从而剖析血糖异常背后的社会经济与行为因素。该数据集为纵向健康监测提供了可靠基石,尤其适用于资源受限环境下的疾病负担评估。
衍生相关工作
围绕该数据集已衍生出多项经典工作,例如基于非洲多国面板数据的时空建模研究,这些工作揭示了血糖升高与城市化进程、膳食结构变迁之间的非线性关系。另有一些工作将其与其他NCD指标(如肥胖率、高血压患病率)联合分析,构建了多病共存的预测框架。该数据集也被用于评估WHO全球非传染性疾病监测目标的实现程度,尤其是在撒哈拉以南地区。其标准化的结构还启发了区域数据仓库的建设,促进了跨库联合分析与可重复性研究范式的普及。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区空腹血糖升高(≥7.0 mmol/L)的粗估指标,覆盖1980至2014年间46个非洲国家的时空演变。在全球非传染性疾病负担持续攀升的背景下,该数据助力学界探究糖尿病等代谢性疾病在非洲的流行病学分布特征与变迁趋势。通过整合世界卫生组织全球卫生观测站的官方数据,研究者可结合性别、城乡等亚维度展开精细化建模,推动机器学习在低资源区域健康监测、风险预测与政策干预评估中的前沿应用,为全球健康数据治理与可持续发展目标中的健康公平议题提供了关键实证支撑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务