electricsheepafrica/africa-who-mean-systolic-blood-pressure-bp06
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-systolic-blood-pressure-bp06
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标平均收缩压(年龄标准化估计)(BP_06)的国家级观察数据,时间跨度为1975-2015年。它是[Electric Sheep Africa]系列的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Mean systolic blood pressure (age-standardized estimate)" (`BP_06`) across African nations, spanning 1975–2015. It is part of the [Electric Sheep Africa] collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区人群年龄标准化平均收缩压(BP_06指标)。原始数据通过自动化接口获取后,被重新封装为Parquet格式文件,并统一为一致的列式结构。构建过程中仅保留浮点精度的数值字段(NumericValue)作为核心测量值,同时纳入置信区间上下界(value_low、value_high)以提供统计稳健性。数据涵盖1975年至2015年间46个非洲国家的3772条记录,每条观测对应特定国家、年份及性别维度(如男女分列)的组合,通过dim1和dim2字段标识分层信息,便于多维分析与聚合。
特点
该数据集最显著的特点在于其面向机器学习就绪的标准化设计。所有数值均采用浮点精度,排除了显示字符串的干扰,直接适用于回归或分类任务。数据集中包含了完整的亚维度信息,如性别分层(SEX_FMLE、SEX_MLE),支持细粒度的时间序列与国家间比较。此外,数据来源可靠,遵循CC BY 4.0开放许可协议,并附有原始数据更新时间戳,确保可追溯性与时效性。整体上,它填补了非洲地区心血管健康指标数据在标准化、可复用方面的空白,为区域健康研究提供了高价值资源。
使用方法
使用该数据集时,可通过HuggingFace的datasets库直接加载,例如调用`load_dataset("electricsheepafrica/africa-who-mean-systolic-blood-pressure-bp06")`,返回的数据集可转换为Pandas DataFrame进行后续分析。为获取国家级整体估计值,建议过滤dim1字段以保留男女合计(如以"_BTSX"结尾或为空的行)。用户亦可按国家代码(如country_iso3为"KEN")提取特定国家的时间序列,并按年份排序以观察长期趋势。对于需要置信区间的研究,可直接使用value_low和value_high列进行不确定性量化或误差棒绘制。
背景与挑战
背景概述
心血管疾病是全球范围内的主要死亡原因之一,而收缩压水平是评估心血管健康风险的关键指标。非洲地区由于医疗卫生资源分布不均、数据采集体系薄弱,长期缺乏系统性、标准化的血压监测数据,制约了区域公共卫生政策的制定与干预措施的精准实施。为此,世界卫生组织(WHO)通过全球卫生观察站(GHO)发起了BP_06指标的监测工作,后由Electric Sheep Africa团队于2025年前后整合并发布了“africa-who-mean-systolic-blood-pressure-bp06”数据集。该数据集覆盖46个非洲国家、时间跨度自1975年至2015年,收录了年龄标准化的平均收缩压估计值及其置信区间,为研究非洲大陆高血压流行病学演变、评估疾病负担及优化健康资源配置提供了宝贵的定量基础。其开放性许可(CC BY 4.0)与结构化存储方式,显著降低了机器学习与统计建模的数据获取门槛,推动了非洲健康数据科学的发展。
当前挑战
该数据集所应对的核心领域挑战在于,非洲地区的心血管疾病风险监测长期受困于数据稀疏、指标不统一及纵向对比困难,导致区域健康评估的精准度不足。具体而言,各国血压数据的采集标准、人口覆盖率和报告周期存在显著差异,且缺乏年龄标准化的跨时空可比框架,难以支撑跨国民健康发展趋势分析。在数据构建过程中,主要挑战包括:从WHO GHO OData API抽取大规模多维指标时需处理不同年份的维度变化(如性别、居住地类型的分类不一);需将非结构化的显示字符串(如“58.3 [57.7–59.0]”)与数值字段对齐,并从置信区间字段中解析上下界;同时,因非洲国家部分历史记录缺失,需协调稀疏子维度(如城乡分层)的聚合逻辑,确保数据集在时间—国家—分层维度上的完整性。此外,保持与原始WHO数据版本一致的更新频率也是维护工作的难点。
常用场景
经典使用场景
在公共卫生与流行病学领域,非洲地区年龄标准化平均收缩压估计值数据集(africa-who-mean-systolic-blood-pressure-bp06)已成为研究心血管疾病负担区域差异的核心资源。该数据集囊括了1975年至2015年间46个非洲国家的国家层面观测值,提供了按性别分层的血压指标与置信区间。经典使用方式包括运用时间序列分析与回归模型,追踪非洲各国血压水平的长期演变轨迹,或构建跨国家的面板数据模型,剖析社会经济因素、医疗可及性与血压变化之间的关联。数据集的表格化结构使其高度适配机器学习任务,可用于预测未来血压趋势或识别高危人群聚居区域。
解决学术问题
该数据集精准回应了非洲地区高血压流行病学数据碎片化的长期困境。学术研究常受限于样本量不足、时间跨度短或地域覆盖狭窄,而此数据集通过统一的WHO标准化测量与年龄标准化处理,提供了可靠的可比性基础。学者得以解决既往难以量化的关键问题,例如定量评估非洲大陆内部高血压患病率的地理梯度,验证血压水平与城市化进程、营养转型之间的非线性关系,或精确推算血压控制策略对公共卫生政策的潜在影响。数据集提供的置信区间信息进一步增强了统计推断的稳健性,为循证医学与全球健康治理提供了坚实的数据根基。
衍生相关工作
该数据集衍生了多项具有影响力的学术探索与资源拓展。其一,部分研究者将其与非洲地区的膳食结构、气候环境及医疗基础设施等社会经济协变量数据集联立,构建了多维度的高血压风险归因模型,揭示了环境因子与血压在撒哈拉以南非洲地区的交互作用。其二,数据集的发布催生了针对非洲非传染性疾病数据治理方法的讨论,推动了Open Data在非洲健康研究生态中的标准化进程。此外,该数据集作为Electric Sheep Africa统一数据仓储的组成部分,启发了针对妇女健康、高血压药物治疗覆盖率等关联性WHO指标的系统性整理与跨指标分析,形成了关于非洲心血管健康的全景式数据视图。
以上内容由遇见数据集搜集并总结生成



