electricsheepafrica/africa-who-raised-blood-pressure-bp04
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-raised-blood-pressure-bp04
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1990年至2019年间关于WHO GHO指标Raised blood pressure (SBP>=140 OR DBP>=90) (age-standardized estimate)(BP_04)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。数据集包含47个非洲国家,总计4,230行数据,涵盖了年龄标准化估计值、置信区间边界等信息。此外,数据集还提供了按性别等子维度分层的详细信息。
This dataset contains country-level observations for the WHO GHO indicator "Raised blood pressure (SBP>=140 OR DBP>=90) (age-standardized estimate)" (`BP_04`) across African nations, spanning 1990–2019. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区1990至2019年间血压升高(收缩压≥140 mmHg或舒张压≥90 mmHg)的年龄标准化估计值。数据经系统化整理,以Parquet格式存储,并保持统一的模式结构。所有数值字段均采用浮点精度的`NumericValue`,而非显示字符串,同时纳入置信区间上下限(`value_low`、`value_high`),确保数据科学应用的严谨性。作为Electric Sheep Africa项目的一部分,该数据集整合了47个非洲国家的4,230条观测记录,维度包括性别分层(SEX_BTSX、SEX_FMLE、SEX_MLE),为机器学习任务提供了可直接使用的结构化数据。
使用方法
用户可通过HuggingFace `datasets`库便捷加载,示例代码`load_dataset("electricsheepafrica/africa-who-raised-blood-pressure-bp04")`将数据导入为Pandas DataFrame。针对特定分析需求,可通过条件筛选提取子集:例如,使用`dim1`字段过滤两性合并数据(以"_BTSX"结尾),或按`country_iso3`定位单一国家(如"KEN")并按年份排序构建时间序列。此设计支持分类与回归任务的多样化应用,从区域趋势分析到预测建模均可灵活实现。
背景与挑战
背景概述
高血压作为全球慢性疾病的主要风险因素,尤其在非洲地区呈现出日益严峻的流行趋势。为应对这一公共卫生挑战,世界卫生组织(WHO)全球卫生观察站(GHO)设立了BP_04指标,用于监测收缩压≥140 mmHg或舒张压≥90 mmHg的年龄标准化患病率。由Electric Sheep Africa团队于2023年前后整理发布的africa-who-raised-blood-pressure-bp04数据集,系统汇集了1990至2019年间47个非洲国家的4,230条观测记录,来源可靠且结构统一。该数据集旨在为机器学习模型提供标准化的区域健康数据,填补了非洲大陆高血压流行病学长期缺乏高质量、机器可读数据的空白,对推动非洲区域健康政策研究与精准干预具有重要基础性价值。
当前挑战
该数据集所解决的领域问题聚焦于非洲地区高血压患病率长期存在的监测困难与数据碎片化挑战,为跨国家和跨时间维度的流行病学建模提供了关键支持。其构建过程中面临多重挑战:首先,WHO GHO原始数据接口包含大量非标准化字段与格式差异,需通过统一架构清洗为Parquet格式并保留置信区间边界;其次,不同国家的数据覆盖时间与分层维度(如性别、居住地区)不完全一致,例如部分观测缺失维2信息,需设计灵活的过滤策略以确保数据完整性与可比性;此外,年龄标准化估计值的计算基准在不同来源间存在潜在差异,整合时需严格追踪元数据以避免概念混淆。
常用场景
经典使用场景
非洲地区高血压负担的地理与时间趋势分析是该数据集最经典的应用场景。研究人员可借助该数据集包含的47个非洲国家1990至2019年间年龄标准化后的血压升高患病率估计值,系统描绘非洲大陆高血压流行的时空演变图谱。通过按性别、城乡等亚维度分层的数据,学者能够深入解析不同人口群体间高血压患病率的差异及其演变规律,为揭示非洲心血管疾病转型的复杂性提供关键量化依据。
解决学术问题
该数据集有效解决了非洲地区高质量、标准化高血压流行病学数据匮乏的难题。此前,针对非洲大陆的心血管疾病研究常受限于零散且口径不一的国家级数据,难以开展跨国比较和系统性元分析。通过提供来自WHO全球卫生观察站的一致性指标BP_04,该数据集使研究者能够严谨估计区域高血压负担、评估其与社会经济发展关联,并为全球疾病负担研究中的非洲数据缺口提供可信的填补方案。
实际应用
在实际公共卫生应用中,该数据集支持非洲各国卫生部门进行慢性病防控策略的循证制定与效果评估。政策制定者可利用其历年趋势数据识别高血压控制成效不佳的国家或亚人群,从而优化资源配置。同时,该数据集可作为机器学习模型的训练基础,用于预测未来高血压患病率变化,助力世界卫生组织及非洲疾控中心等机构在资源有限背景下精准设计干预措施,降低中风和心肌梗死等并发症的发生。
数据集最近研究
最新研究方向
在全球公共卫生领域,非洲地区高血压负担持续攀升已成焦点议题。该数据集以世界卫生组织全球健康观察站权威指标BP_04为核心,整合了1990至2019年间47个非洲国家的年龄标准化高血压患病率估计值,并纳入性别等亚组分层信息,为跨时空比较与机器学习建模提供了高质量结构化资源。当前前沿研究正聚焦于利用此类纵向健康指标,结合环境与社会经济关联变量,构建预测模型以识别高血压高风险人群。这一数据集的出现,不仅填补了非洲大陆系统性、机器可读型血压数据的空白,更助力于在南南合作与全民健康覆盖议程下,推动基于证据的政策干预与精准公共卫生决策,对实现联合国可持续发展目标中关于非传染性疾病控制的愿景具有深远意义。
以上内容由遇见数据集搜集并总结生成



