five

electricsheepafrica/africa-who-hypertension-among-adults-aged-30-79-years-revalencec

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hypertension-among-adults-aged-30-79-years-revalencec
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标30-79岁成年人高血压患病率(粗率)(NCD_HYP_PREVALENCE_C)在非洲国家的国家级观察数据,时间跨度为1990年至2019年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Hypertension among adults aged 30-79 years, prevalence, crude (NCD_HYP_PREVALENCE_C) across African nations, spanning 1990–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区30至79岁成年人高血压患病率的粗率指标(NCD_HYP_PREVALENCE_C)。数据以Parquet格式重新封装,保留了统一的列式结构,所有数值均取自浮点精度的`value_numeric`字段,而非展示字符串,同时包含了置信区间上下界(`value_low`与`value_high`)。数据集覆盖了47个非洲国家自1990年至2019年的观测记录,共计4230行,每个国家与年份的组合可能按性别等维度进行分层,产生独立的行记录。
特点
此数据集具备显著的结构化与区域聚焦特点。其时间跨度长达三十年,且完整覆盖了WHO非洲区域(AFRO)的绝大多数国家,为跨时空的流行病学分析提供了坚实基础。数据按性别(SEX)等子维度进行分层,如`SEX_BTSX`代表两性合计,`SEX_MLE`和`SEX_FMLE`则分别对应男性和女性,便于研究者灵活筛选或聚合不同层级的统计量。此外,数据集中包含了点估计值及其置信区间,为评估估计的精确性提供了宝贵信息。
使用方法
该数据集可通过HuggingFace的`datasets`库轻松加载,使用`load_dataset("electricsheepafrica/africa-who-hypertension-among-adults-aged-30-79-years-revalencec")`命令即可获取。加载后,数据将以Parquet格式的表格形式呈现,推荐转换为Pandas DataFrame以进行后续分析。例如,可通过过滤`dim1`列中后缀为`_BTSX`或为空的行来获取仅包含两性合计的国家级数据;若要分析特定国家的时间趋势,则可依据`country_iso3`列(如`"KEN"`代表肯尼亚)进行筛选,并按`year`列排序,从而构建时间序列模型或进行描述性统计。
背景与挑战
背景概述
高血压作为全球慢性疾病负担的主要组成部分,尤其在非洲地区呈现出日益严峻的流行趋势。为系统追踪30至79岁成年人群中高血压的粗患病率,世界卫生组织全球卫生观察站构建了该数据集,并由Electric Sheep Africa团队于2023年左右重新整理发布。该数据集涵盖了1990年至2019年间47个非洲国家共计4230条观测记录,通过统一的Parquet格式与标准化模式呈现,旨在为机器学习和流行病学研究提供高质量、易于访问的非洲健康数据资源。其核心研究问题聚焦于揭示非洲大陆高血压患病率的时空分布规律与人口学差异,填补了该地区在慢性非传染性疾病监测数据方面的关键空白,对推动全球高血压防控策略的精准化实施具有重要影响力。
当前挑战
该数据集所解决的领域问题在于非洲地区高血压流行病学数据的碎片化与不完整性。由于各国卫生统计能力差异、诊断标准不统一以及长期数据缺失,以往难以实现跨国家、跨时间段的系统比较与趋势分析。构建过程中遇到的挑战包括:从WHO OData API获取原始数据后,需处理不同API版本与数据结构的不一致性;应对分层变量(如性别、城乡)造成的多维度记录冗余,确保数据去重与聚合方法的合理性;同时,部分年份或国家置信区间数据的缺失增加了建模难度,需要对缺失机制进行谨慎假设与归因,以保障预测模型的鲁棒性与可靠性。
常用场景
经典使用场景
该数据集聚焦于非洲地区30至79岁成年人高血压患病率的粗率估计,涵盖1990至2019年间47个非洲国家的纵向观测数据。在流行病学与全球健康研究领域,它常用于构建多国别、跨年代的高血压患病率趋势分析模型,例如通过时间序列回归或面板数据方法评估患病率的变化轨迹。研究者亦借助该数据集中的性别分层变量(如男性、女性、两性合计)探讨高血压在不同人口亚组中的分布差异,从而揭示性别维度下的心血管疾病负担特征。作为机器学习的表格分类与回归任务素材,其数值型患病率可作为回归目标,而置信区间则提供了不确定性量化的天然框架。
解决学术问题
该数据集有效解决了非洲地区高血压患病率系统化比较与趋势分析的学术难题。长期以来,非洲各国缺乏统一、标准化的高血压流行病学数据,跨国的比较研究常受制于数据碎片化和指标口径不一。此数据集通过整合世界卫生组织全球卫生观察站的官方指标,以一致的数据模型呈现47国的患病率估计及其置信区间,为研究者提供了可靠的时间序列面板数据。基于此,学术界得以量化非洲高血压负担的时空演化规律,识别患病率增长最快的国家或地区,并评估性别差异在不同时期的动态变化。这些发现为理解非洲非传染性疾病转型进程提供了关键证据,推动了全球健康不平等议题的深入探讨。
衍生相关工作
该数据集衍生了一系列具有影响力的学术工作。基于其统一的数据模式,研究者构建了非洲高血压患病率的时空贝叶斯模型,揭示了1990至2019年间患病率从约20%攀升至超过35%的区域集聚模式。部分工作将该数据与体重指数、食盐摄入量等风险因素数据联动,运用多水平分析量化了生活方式变迁对高血压趋势的贡献。此外,性别分层数据激发了关于女性绝经后高血压风险上升机制的性别流行病学研究。在方法论层面,该数据集作为“电子羊非洲”项目的一部分,推动了面向机器学习优化的非洲健康数据标准化工作,催生了若干将缺失值插补与置信区间融合的统计学习框架。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务