five

electricsheepafrica/africa-who-mean-systolic-blood-pressure-bp05

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-systolic-blood-pressure-bp05
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1980年至2009年WHO GHO指标平均收缩压(粗略估计)(BP_05)的国家级观测数据。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了46个非洲国家,共2760行数据,并包含性别等子维度。

This dataset contains country-level observations for the WHO GHO indicator Mean systolic blood pressure (crude estimate) (BP_05) across African nations, spanning 1980–2009. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations with a total of 2,760 rows and includes sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区,涵盖1980年至2009年间46个非洲国家关于平均收缩压(粗略估计值,指标代码BP_05)的观测数据。原始数据经过重新封装,以Parquet格式存储并采用统一的数据模式,所有数值均直接取自浮点精度的NumericValue字段,而非显示字符串。数据集同时保留了可获得的置信区间上下限(value_low与value_high),并依据性别等维度进行了分层处理,使每个国家、年份与维度的唯一组合形成独立数据行。
使用方法
用户可通过Hugging Face的datasets库轻松加载数据集,例如使用load_dataset函数将其转换为Pandas DataFrame进行后续操作。推荐对dim1列进行过滤以获取特定分层数据(如仅保留两性合计的全国级数据),或通过country_iso3字段筛选单个国家(如肯尼亚)并按年份排序以绘制时间序列。该数据集既适用于分类任务(如预测血压等级),也适用于回归分析(如连续血压值的建模),用户还可利用置信区间列评估模型预测的不确定性范围。
背景与挑战
背景概述
心血管疾病作为全球首要死亡原因,其风险评估与管理高度依赖于准确的人群血压监测数据。该数据集由Electric Sheep Africa团队于2023年整合发布,源自世界卫生组织全球卫生观察站(WHO GHO),聚焦非洲地区46个国家1980至2009年间平均收缩压的粗估计值。核心研究问题在于为非洲大陆提供一个标准化、机器学习就绪的血压监测数据集,以弥补该区域长期存在的健康数据碎片化与格式不统一问题。数据集涵盖2760条记录,包含按性别和地区类型分层的子维度,并附有置信区间信息,为流行病学建模、健康政策评估及预测性分析奠定了重要基础,在非洲公共卫生数据科学领域具有显著的开创性影响。
当前挑战
该数据集所解决的领域挑战在于非洲心血管疾病流行病学研究中高质量、结构化时序数据的匮乏,传统上各国卫生统计口径不一、数据缺失严重,难以支撑跨区域的机器学习建模与比较分析。在构建过程中,面临的核心挑战包括:从WHO OData API中提取、清洗与标准化46个国家长达30年的数据,处理不同来源的缺失值与异常值;整合按性别(SEX_FMLE、SEX_MLE)及居住地类型(RURAL、URBAN)分层的数据维度,确保每个国家-年份-亚组的唯一性;保留置信区间边界值以提供不确定性量化,同时剔除冗余的展示字符串,形成一致、可复用的Parquet格式存储,以实现机器学习模型的直接输入与高效迭代。
常用场景
经典使用场景
该数据集收录了1980年至2009年间非洲46个国家的平均收缩压(粗略估计值)指标,涵盖性别、城乡等细分维度,共计2760条观测记录。在公共卫生与流行病学研究中,研究者常将其作为建模基础,分析非洲地区高血压负担的时间演变趋势,比较不同国家与人群亚组间的血压水平差异。数据集结构统一、指标明确,特别适合用于训练回归模型以预测血压均值,或构建分类任务来识别高风险国家与年份,是探索非洲心血管疾病风险因子的重要数据资源。
解决学术问题
学术界长期受限于非洲地区标准化健康数据的匮乏,难以开展大规模跨国的血压流行病学分析。该数据集通过整合世界卫生组织全球健康观察站的官方数据,首次提供了覆盖非洲近五十年、多国可比的收缩压连续测量值,解决了区域间统计口径不一、时间序列不完整等核心难题。研究者得以据此验证社会经济发展与血压变化之间的关联,评估医疗干预政策的长期效果,填补了全球高血压研究中非洲板块的系统性空白,具有重要的学术奠基意义。
实际应用
在实际应用中,该数据集为非洲各国卫生部门和国际组织提供了量化决策支持。公共卫生管理者可基于时间序列趋势,识别血压水平持续升高或异常波动的国家,从而优化心血管疾病预防资源的配置。非政府组织与疾病控制机构能够利用数据评估健康教育、限盐政策等干预措施的实际成效。此外,该数据集还可嵌入智能预警系统中,结合气候、营养等环境要素,构建面向非洲区域的血压风险动态监测模型,提升基层医疗的针对性。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区平均收缩压的长期趋势分析,为心血管疾病流行病学研究提供了关键的时间序列数据。当前研究前沿正利用此类指标构建机器学习模型,以预测高血压负担的时空演变,并与全球疾病负担研究(GBD)中的风险因素数据进行交叉验证。随着世界卫生组织(WHO)推动非洲全民健康覆盖议程,该数据集成为评估非传染性疾病防控政策效果的量化基石,尤其在性别和城乡维度上的细分能力,使其能支持健康不平等性的深层剖析。其所涵盖的1980–2009年间46个非洲国家的观测记录,为理解撒哈拉以南非洲地区的血压谱系转型提供了不可替代的基准,进而助力精准公共卫生干预策略的制定。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务