five

electricsheepafrica/africa-who-hypertension-effective-treatment-coverageamong-adults-aged

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hypertension-effective-treatment-coverageamong-adults-aged
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“高血压有效治疗覆盖率(30-79岁成年人中控制高血压的比例,年龄标准化%)”在非洲国家的国家级观察数据,时间跨度为1990年至2019年。数据来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator "Hypertension effective treatment coverage (controlled hypertension )among adults aged 30-79, age-standardized (%)" (`NCD_HYP_CONTROL_A`) across African nations, spanning 1990–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,专门提取了非洲地区47个国家1990至2019年间年龄标准化后的高血压有效治疗覆盖率(即血压得到控制的人群比例)指标。原始数据经过系统化清洗与重组,摒弃了展示字符串,转而采用高精度的浮点型数值(NumericValue)作为主要机器学习目标,同时保留了置信区间上下界信息。所有观测值按照统一规范的列模式(Schema)整理为Parquet文件格式,每一行代表一个国家在特定年份及性别或居住地类型等分层维度下的独立记录。该数据集是Electric Sheep Africa项目的一部分,旨在构建一个可直接用于机器学习模型训练的非洲数据仓库。
特点
数据集的核心优势在于其清晰的结构与丰富的分层信息。它包含性别(两性、女性、男性)和居住地类型等子维度,使研究者能够深入分析不同人群亚组之间的覆盖率差异。每个观测值都附带点估计值及置信区间,为统计推断提供了坚实的数据基础。覆盖范围横跨30年,囊括47个非洲国家,总计4230行记录,形成了长跨度、多国别的面板数据结构,特别适合进行时间序列分析、跨国比较以及预测建模。此外,数据集采用轻量级高性能的Parquet存储格式,极大提升了数据加载与处理的效率。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset('electricsheepafrica/africa-who-hypertension-effective-treatment-coverageamong-adults-aged')即可获取训练集,并借助to_pandas()方法转换为Pandas DataFrame进行后续分析。使用过滤操作可快速提取特定子集,例如通过筛选dim1列中以'_BTSX'结尾的值来获取仅包含两性合计的全国层面数据,或通过country_iso3字段定位特定国家(如'KEN'代表肯尼亚)并按时序排序以观察其变化趋势。该数据集可直接用于分类与回归两类监督学习任务,为非洲公共卫生领域的定量研究提供了便捷、可靠的标准化数据入口。
背景与挑战
背景概述
在全球非传染性疾病负担日益沉重的背景下,高血压作为心血管疾病的主要可干预危险因素,其有效治疗覆盖率的监测对于评估公共卫生干预成效至关重要。该数据集由Electric Sheep Africa团队基于世界卫生组织全球卫生观察站(WHO GHO)的公开数据整理而成,聚焦于非洲47个国家1990至2019年间30-79岁成年人经年龄标准化的高血压有效治疗覆盖率(即受控高血压比例),旨在为机器学习研究提供统一、便捷的非洲健康数据源。作为非洲地区首个大规模、结构化且可直接用于建模的高血压治疗覆盖率数据集,其发布填补了区域健康数据在机器学习领域的空白,为流行病学分析、健康政策评估及预测建模提供了关键支撑,推动了数据驱动型全球健康研究的进展。
当前挑战
该数据集所解决的领域核心挑战在于非洲地区高血压治疗覆盖率长期缺乏高质量、可比较的量化指标,导致区域疾病负担评估和政策制定缺乏实证依据。在构建过程中,团队面临多重挑战:首先,WHO GHO原始数据维度复杂,包含性别、居住地类型等分层变量,需设计统一的机器学习语义模式以实现跨维度整合;其次,原始数据中的置信区间和显示字符串需被精确映射至数值型字段,以保障建模精度;最后,47个国家跨越30年时间序列的数据存在缺失值和不一致更新频率,要求数据清洗与插补策略的谨慎设计,确保其可靠性和时效性。
常用场景
经典使用场景
该数据集为非洲地区高血压有效治疗覆盖率提供了纵向观测数据,覆盖1990年至2019年间47个非洲国家。经典使用场景包括构建时间序列预测模型,以揭示非洲大陆高血压控制水平的时空演变规律;利用多变量回归分析探究社会经济、医疗资源配置等因素对治疗覆盖率的影响;亦可作为监督学习中的回归或分类任务输入,预测特定国家或人群的高血压控制达标率。
衍生相关工作
该数据集衍生的经典工作包括基于梯度提升机或随机森林模型对非洲高血压治疗覆盖率进行预测的基准研究;整合社会经济指标与气候数据的混合效应模型,以探索高血压控制的多层次决定因素;以及利用时间序列分解技术对1990-2019年数据趋势进行分段分析,检验重大公共卫生事件(如疟疾、艾滋病干预)对心血管疾病管理的间接影响。这些工作拓展了非洲非传染性疾病数据集的应用边界。
数据集最近研究
最新研究方向
在非洲慢性病防控领域,该数据集聚焦于30-79岁成年人高血压有效治疗覆盖率(即控制性高血压)的年龄标准化百分比,覆盖47个非洲国家1990至2019年的纵向观测。前沿研究方向集中于利用机器学习模型挖掘时空异质性,识别覆盖率低下的国家与人群亚组,并关联社会经济、卫生系统等协变量以揭示干预缺口。该数据与WHO全球卫生观察站及非洲健康议程紧密相连,为评估‘全民健康覆盖’目标进展提供关键证据,尤其在非传染性疾病负担攀升的背景下,有助于推动精准政策制定和资源分配优化。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务