five

electricsheepafrica/africa-who-diabetes-treatment-coverage-mentagestd

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-diabetes-treatment-coverage-mentagestd
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1990年至2022年间关于糖尿病治疗覆盖率,年龄标准化的WHO GHO指标数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包。数据集覆盖47个非洲国家,总计4,653行数据。数据包含子维度(如性别)和详细的列描述(如指标代码、国家ISO3代码、年份、数值估计等)。此外,还提供了数据的使用示例和引用信息。

This dataset contains country-level observations for the WHO GHO indicator Diabetes treatment coverage, age-standardized (NCD_DIABETES_TREATMENT_AGESTD) across African nations, spanning 1990–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区年龄标准化的糖尿病治疗覆盖率指标(NCD_DIABETES_TREATMENT_AGESTD)。数据采集覆盖1990年至2022年间47个非洲国家的观测值,共包含4653条记录。原始API返回的浮点精度数值(NumericValue)被直接提取为主数据字段,同时保留了置信区间上下限(value_low、value_high)及格式化显示字符串。所有数据经统一模式整理后,以Parquet文件格式存储于Electric Sheep Africa项目仓库,确保机器学习就绪的高效加载体验。
特点
本数据集呈现出显著的时空与人口统计学分层特性。空间维度涵盖全部47个WHO非洲区域成员国,时间跨度超过三十年,可用于纵向趋势分析。指标按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)及居住地区类型等维度进行细分,每个国家-年份-亚组组合构成独立记录,使研究者能够灵活地按特定亚群(如农村女性)筛选或跨层级聚合。此外,原始数据中的置信区间边界被完整保留,为统计推断和不确定性量化提供了坚实基础。
使用方法
用户可通过HuggingFace datasets库直接加载该数据集,调用load_dataset('electricsheepafrica/africa-who-diabetes-treatment-coverage-mentagestd')获取包含单一train分区的Dataset对象,并利用to_pandas()方法转换为pandas DataFrame进行后续分析。为聚焦于全体人群的无分层数据,可按dim1字段过滤以SEX_BTSX结尾或为空的值。针对特定国家的时间序列研究,可通过country_iso3列筛选如'KEN'(肯尼亚)并依year列排序。该数据集适用于分类与回归任务,值字段value_numeric可直接作为监督学习的目标变量。
背景与挑战
背景概述
该数据集隶属于世界卫生组织(WHO)全球卫生观察站(GHO),由Electric Sheep Africa团队于2022年重新整合发布,聚焦非洲47国1990至2022年间年龄标准化后的糖尿病治疗覆盖率(指标代码NCD_DIABETES_TREATMENT_AGESTD)。糖尿病作为非传染性疾病(NCD)的核心议题,在非洲大陆面临医疗资源不均、数据碎片化等严峻挑战。该数据集通过统一架构汇集WHO官方OData API数据,提供含置信区间的数值型指标,为机器学习驱动的区域卫生政策评估、治疗可及性建模及跨国产出比较奠定了标准化基础。其影响力在于将离散的全球健康统计数据转化为机器可读的非洲专属数据集,填补了该地区糖尿病治疗量化研究的结构性空白。
当前挑战
该数据集应对的核心领域问题在于非洲糖尿病治疗覆盖率的量化存在监测体系薄弱、指标口径不一及长期动态缺失等障碍,限制了跨时空比较与干预效果评估。在构建过程中,挑战主要来自三方面:其一,WHO原始数据以展示字符串为主,需精确提取浮点数值并整合置信区间,避免精度损失与格式歧义;其二,数据按性别(SEX_BTSX、SEX_FMLE等)和区域类型(城乡)分层,需保留维度和维度类型字段以支持灵活过滤与聚合,同时防止因分层导致的国家-年份记录冗余;其三,涵盖1990至2022年间47国的4653条观测,需处理部分年份或国家的缺失值及时序非对齐问题,确保下游模型输入的一致性与可靠性。
常用场景
经典使用场景
该数据集汇集了世界卫生组织全球卫生观察站关于非洲国家年龄标准化糖尿病治疗覆盖率的纵向观测数据,覆盖1990年至2022年间47个非洲国家。其经典使用场景集中于构建时间序列回归模型与跨国外推研究,旨在揭示非洲大陆糖尿病治疗覆盖率的长期演变轨迹与区域异质性。通过整合性别与居住地类型等子维度信息,研究者可精准剖析不同亚群间的治疗可及性差异,为宏观流行病学规律的挖掘提供坚实的数据支撑。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作。其中广泛应用的路径包括:构建贝叶斯层次模型以填补多年间部分国家的数据缺失,生成更具地理完备性的治疗覆盖率估算图谱;利用固定效应面板回归模型量化国家收入水平与治疗覆盖率之间的弹性关系;以及将治疗覆盖率指标与同期糖尿病患病率、死亡率数据联合分析,构建从诊断到治疗再到控制的完整照护级联模型,为非洲糖尿病综合防控策略的优化提供量化依据。
数据集最近研究
最新研究方向
基于世界卫生组织全球卫生观测站数据,该数据集聚焦非洲大陆年龄标化糖尿病治疗覆盖率的时间序列变迁(1990–2022年),为理解非洲地区非传染性疾病防控进展提供了关键定量基础。当前前沿研究热点在于利用机器学习模型(如时序预测、分层贝叶斯建模)解析治疗覆盖率与国家卫生系统韧性、社会经济因素的动态关联,尤其关注撒哈拉以南非洲国家在WHO全球糖尿病公约框架下的政策响应效果。该数据集的标准化Parquet格式与置信区间字段(value_low, value_high)极大便利了多国别差异与不确定性量化分析,已成为评估联合国可持续发展目标3.4(减少非传染性疾病过早死亡率)在非洲地区实现路径的核心实证工具。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务