five

electricsheepafrica/africa-who-hypertension-among-adults-aged-30-79-years-revalencea

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hypertension-among-adults-aged-30-79-years-revalencea
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标30-79岁成年人高血压患病率,年龄标准化(NCD_HYP_PREVALENCE_A)在非洲国家的国家级观察数据,时间跨度为1990年至2019年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Hypertension among adults aged 30-79 years, prevalence, age-standardized (NCD_HYP_PREVALENCE_A) across African nations, spanning 1990–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球健康观察站(WHO GHO)的OData API,专注于非洲地区30至79岁成年人年龄标化高血压患病率指标(NCD_HYP_PREVALENCE_A)。数据经Electric Sheep Africa项目重新整合,以Parquet文件格式统一存储,保留了NumericValue字段作为精确浮点数值,同时包含置信区间上下界。数据集覆盖47个非洲国家1990至2019年的观测记录,共4230行,通过WHO AFRO区域代码进行过滤,确保地域聚焦性。
特点
该数据集的核心特色在于其结构化与多维性。除了国家、年份和患病率点估计值外,还纳入了性别分层维度(SEX_BTSX、SEX_FMLE、SEX_MLE),并预留了dim2字段以支持其他分类变量(如居住地类型)。每个观测记录均包含置信区间,便于不确定性分析。数据集遵循CC BY 4.0许可协议,且所有数值均来自原始浮点精度字段,避免了显示字符串的格式干扰,为机器学习任务提供了清洁可靠的数值型目标变量。
使用方法
使用者可通过HuggingFace Datasets库直接加载数据集,例如使用`load_dataset("electricsheepafrica/africa-who-hypertension-among-adults-aged-30-79-years-revalencea")`获取训练集,并转换为Pandas DataFrame进行后续分析。在数据筛选时,可利用dim1字段过滤特定性别层次(如SEX_BTSX提取两性总体数据),或按country_iso3列提取特定国家的时间序列。此外,value_low和value_high列可用于构建置信区间相关模型或可视化误差范围。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织(WHO)全球卫生观察站(GHO)的公开数据整理而成,专注于非洲地区30至79岁成年人年龄标准化高血压患病率的监测。数据覆盖1990年至2019年间47个非洲国家,共计4230条观测记录,旨在为机器学习研究提供结构化、可直接用于建模的非洲健康数据资源。高血压作为非传染性疾病的核心风险因素,在非洲大陆呈现快速上升趋势,然而区域层面的高质量、标准化数据长期匮乏。该数据集的创立填补了这一空白,通过统一的Parquet格式和清晰的置信区间字段,显著降低了研究者获取和分析非洲健康数据的门槛,对推动全球健康公平与数据驱动决策具有深远意义。
当前挑战
该数据集所解决的领域问题是非洲高血压流行病学研究中数据碎片化、可比性差的核心瓶颈。由于各国统计体系差异,原始WHO数据往往存在维度分层(如按性别、城乡区域划分),导致数据稀疏且跨国家、跨年份的连贯性不足。构建过程中面临的挑战包括:从OData API提取时需处理非结构化显示字符串与精确浮点数值的映射,需保留置信区间字段以支撑后续不确定性分析;此外,47个国家的分期数据需对齐1990–2019年时间轴,部分国家存在缺失年份与异常值,需进行严谨的清洗与一致性校验,确保数据集在时空维度上的鲁棒性。
常用场景
经典使用场景
在非传染性疾病的流行病学研究中,该数据集常被用于构建预测模型,以估算非洲各国30至79岁成年人高血压的年龄标准化患病率。研究者可借助时间序列分析与回归方法,探索患病率随年份变化的趋势,并评估性别、城乡等亚组间的差异。其清洗后的结构化格式便于直接纳入机器学习流程,支持从简单线性回归到复杂集成学习算法的多种建模范式。
解决学术问题
该数据集精准回应了非洲高血压流行病学研究中长期存在的数据碎片化与可获取性低下的困境。它解决了跨国家、跨时间的一致性患病率估计难题,使得研究者得以系统揭示非洲大陆高血压负担的时空演变规律。这为探讨公共卫生干预效果、社会经济发展对慢性病影响等核心学术命题提供了坚实的数据基础,显著推动了全球非传染性疾病公平性研究。
衍生相关工作
此数据集衍生了一系列重要研究与实践工作。一方面,它作为“Electric Sheep Africa”统一数据生态的组成部分,催生了专为非洲设计的健康数据管道与标准化基准,促进了跨数据集融合分析。另一方面,基于该数据发表的时空建模论文构建了高血压负担的预测性地图,而开源社区也围绕其开发了交互式可视化工具,供政策制定者实时探索趋势。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务