electricsheepafrica/africa-who-hypertension-diagnosis-coverage-among-adults-aged-30-79-diagnosisa
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hypertension-diagnosis-coverage-among-adults-aged-30-79-diagnosisa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1990年至2019年间,针对WHO GHO指标高血压:30-79岁高血压患者诊断覆盖率,年龄标准化(%)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包。数据集包括数值型数据、置信区间边界以及维度信息(如性别、年龄组等)。所有数值均来自NumericValue字段,而非显示字符串。该数据集是Electric Sheep Africa项目的一部分,旨在为机器学习提供统一的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Hypertension: diagnosis coverage among adults aged 30-79 with hypertension, age-standardized (%) across African nations, spanning 1990–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区30至79岁成年高血压患者的诊断覆盖率(年龄标准化百分比),覆盖1990至2019年间47个非洲国家的4230条观测记录。数据以Parquet格式统一封装,采用一致的数据模式,核心字段为浮点精度的数值型变量`value_numeric`,并附有置信区间上下限。构建过程中,仅提取`NumericValue`原始数值,而非显示字符串,确保数据面向机器学习任务的高可用性。此外,数据集按性别、居住地类型等维度进行分层,每个国家-年份-维度的组合构成独立行,便于按需筛选或聚合分析。
特点
该数据集具有三大显著特征。其一,涵盖47个非洲国家长达30年的纵向观测,提供了跨时空的高血压诊断覆盖趋势,有利于区域比较和时间序列建模。其二,数据经过标准化处理,以年龄标准化的百分比形式呈现,增强了不同人口结构间的可比性。其三,数据结构严谨,除了核心目标变量外,还包含置信区间、分层维度(如性别变量`SEX_BTSX`、`SEX_FMLE`、`SEX_MLE`)以及数据更新时间戳,为统计推断和衍生分析提供了丰富支持。整个数据集以CC BY 4.0许可开放,源自权威WHO官方数据,并经过Electric Sheep Africa的精心整理与重新打包,质量可靠。
使用方法
使用者可通过HuggingFace的`datasets`库便捷加载该数据集,例如运行`load_dataset("electricsheepafrica/africa-who-hypertension-diagnosis-coverage-among-adults-aged-30-79-diagnosisa")`,随后将训练集转换为Pandas DataFrame进行深入分析。针对研究需求,可通过筛选`dim1`列值为`SEX_BTSX`或缺失值的记录获取全国范围两性合并数据;亦可按`country_iso3`列过滤特定国家(如`KEN`)并排序年份以构建时间序列。此外,模型训练时可直接使用`value_numeric`作为回归任务的目标变量,或根据`value_low`和`value_high`区间信息开展不确定性量化。分层维度字段支持按性别或居住地等子群体进行亚组分析,灵活适配临床流行病学与公共卫生政策评估等多种应用场景。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新整合,专注于1990至2019年间非洲47个国家30至79岁成人高血压诊断覆盖率(年龄标准化百分比,指标代码NCD_HYP_DIAGNOSIS_A)。高血压作为全球非传染性疾病的主要负担之一,在非洲地区尤为严峻,诊断覆盖率直接反映公共卫生体系对心血管疾病风险的识别与干预能力。该数据集通过统一架构将分散的WHO官方数据转化为机器学习就绪的Parquet格式,涵盖4,230条以国家、年份和性别等亚维度分层的观测值。其在流行病学建模、健康政策评估及机器学习预测中具有重要影响力,尤其为资源匮乏地区的慢性病管理提供了量化基准,推动了数据驱动的全球健康公平研究。
当前挑战
该数据集面临多重挑战。领域层面,高血压诊断覆盖率的精确估算受限于非洲各国卫生系统的差异性与数据报告的不完整性,尤其是偏远地区健康监测系统薄弱,导致部分年份或国家存在缺失值,可能引入估计偏差;回归与分类任务需同时处理时间序列的长期趋势突变和亚维度(如性别、城乡)间的异质性。构建过程中,原始WHO OData API的数据需清洗、对齐并验证一致性,确保‘NumericValue’字段的精度优于显示字符串;跨47国、三十年间的置信区间边界(value_low/value_high)仅部分可用,欠完整包络为误差分析增加复杂性;此外,数据许可(CC BY 4.0)虽开放,但需严格归属与版本追踪,以维持与WHO官方来源的同步更新。
常用场景
经典使用场景
该数据集聚焦非洲地区30至79岁成年高血压患者的诊断覆盖率,以年龄标准化百分比形式呈现,是评估非洲各国高血压诊断水平的核心指标。经典使用方法包括利用其国家-年份-性别多维度结构,进行纵向时间序列分析,追踪1990至2019年间各国诊断覆盖率的变化趋势;同时也可基于47个非洲国家横截面数据,开展跨区域对比研究,揭示不同国家在高血压诊断能力上的差异与共性。数据集提供的置信区间增强了统计推断的可靠性,适用于构建回归模型或分类任务,以识别影响诊断覆盖率的关键因素。
实际应用
在实际应用中,该数据集是非洲各国卫生部门制定和优化高血压防治策略的重要数据支撑。公共卫生决策者可依据诊断覆盖率的动态变化,识别医疗系统薄弱环节,合理分配诊断设备与培训资源。国际健康组织如世界卫生组织利用其进行跨年度成效评估,监控‘健康覆盖全民’目标的实现进展。数据集亦服务于非传染性疾病建模与预测工具的开发,帮助规划针对性的社区筛查项目,最终推动非洲高血压早期诊断率的提升,降低心脑血管事件的发生风险。
衍生相关工作
该数据集衍生了多项前沿研究工作,涵盖机器学习预测模型与公共卫生政策分析两大方向。研究者基于其时间序列结构,开发了诊断覆盖率预测的集成学习框架,结合社会经济数据预测未来趋势。在因果推断领域,数据集被用于评估国家层面卫生投入与诊断率之间的动态关系。此外,它催生了非洲全因高血压疾病负担的综合评估模型,将诊断覆盖率与治疗、控制率指标联动分析。这些衍生工作共同深化了对非洲高血压防控全链条的理解,为精准公共卫生干预提供了数据驱动的决策支持。
以上内容由遇见数据集搜集并总结生成



