five

electricsheepafrica/africa-who-hypertension-diagnosis-coverage-among-adults-aged-30-79-diagnosisc

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hypertension-diagnosis-coverage-among-adults-aged-30-79-diagnosisc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1990年至2019年间,世界卫生组织全球健康观察指标高血压:30-79岁高血压成年人的诊断覆盖率,粗百分比(NCD_HYP_DIAGNOSIS_C)的国家级观察数据。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。该数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator Hypertension: diagnosis coverage among adults aged 30-79 with hypertension, crude (%) (NCD_HYP_DIAGNOSIS_C) across African nations, spanning 1990–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区30至79岁成年人群中高血压诊断覆盖率的粗百分比指标(NCD_HYP_DIAGNOSIS_C)。Electric Sheep Africa团队通过统一的数据架构,将原始数据重新打包为Parquet格式文件,确保机器学习就绪。数据涵盖了1990年至2019年间47个非洲国家的4,230条观测记录,所有数值均采用浮点精度的NumericValue字段,并附带了置信区间上下限。数据按国家、年份及性别等子维度进行结构化组织,每行对应一个独特的国家、年份与维度组合,便于灵活筛选与聚合分析。
特点
该数据集的核心特色在于其高度结构化的多维度设计,涵盖了性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等子维度,允许研究者针对特定阶层或总体水平进行精准分析。所有指标均以粗百分比形式呈现,并提供了点估算值与置信区间,增强了统计推断的可靠性。数据集的时间跨度长达三十年,空间覆盖了47个非洲国家,为纵向比较与跨区域研究提供了坚实基础。此外,数据采用CC BY 4.0许可协议,确保了开放获取与再利用的合规性,而Parquet格式的存储方式则显著提升了大规模数据处理与机器学习工作流的效率。
使用方法
使用该数据集时,可通过HuggingFace的`datasets`库轻松加载,执行`load_dataset`命令即可获取训练集,并将其转换为Pandas DataFrame进行后续操作。研究者可通过过滤`dim1`字段(如筛选以`_BTSX`结尾的值)来提取男女总体水平的全国数据,或结合`country_iso3`与`year`字段构建特定国家(如肯尼亚,代码KEN)的时间序列。对于需要跨维度聚合的分析,可依据`dim1_type`和`dim2_type`字段对性别或居住区类型等分层进行分组计算。数据集还提供了`value_low`与`value_high`置信区间字段,便于在回归或分类任务中整合不确定性信息,提升模型的鲁棒性。
背景与挑战
背景概述
高血压作为全球非传染性疾病的首要致死风险因素之一,其诊断覆盖率是衡量卫生系统应对能力与健康不平等状况的核心指标。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期追踪各国流行病学数据,而非洲大陆因卫生基础设施薄弱、数据碎片化严重,相关统计长期缺位。在此背景下,Electric Sheep Africa团队于近期整合了WHO GHO官方API中47个非洲国家1990至2019年间的高血压诊断覆盖率指标(NCD_HYP_DIAGNOSIS_C),构建了首个面向机器学习的非洲区域统一数据集。该数据集包含4,230条观测记录,涵盖性别、居住地类型等多个分层维度,并保留了置信区间等关键统计信息,为跨国籍的疾病负担建模、卫生政策评估及流行病学预测提供了标准化数据基础。
当前挑战
该数据集所解决的领域问题在于弥补非洲大陆高血压诊断评估的数据真空,传统图像分类任务不同,其核心挑战是应对卫生统计中普遍存在的分层异质性、缺失值结构及时间序列不连续性。在构建过程中,首要挑战是跨47国、三十年间多来源数据的模式对齐,包括从WHO OData接口解析非标准化的JSON结构、统一各国代码与区域编码规则。其次,诊断覆盖率指标通常伴随置信区间、显示字符串等冗余字段,需建立严格的数据清洗管线以提取精确数值并保留统计特征。此外,数据集部分国家在早期年份(如1990-2000年)数据稀疏,如何设计合理的缺失值插补策略或模型鲁棒性约束,成为后续建模的关键障碍。最后,在性别、城乡等亚组中,不同国家上报的分层粒度不一,导致数据聚合时需慎重处理维度的可比性,避免引入系统性偏倚。
常用场景
经典使用场景
非洲高血压诊断覆盖数据集(africa-who-hypertension-diagnosis-coverage-among-adults-aged-30-79-diagnosisc)以其国家层面、跨年份(1990–2019)的粗诊断覆盖率观测值,成为分析非洲大陆非传染性疾病防控进展的核心资源。研究者可借助此数据进行时间序列分析、地理空间对比及人口亚组差异挖掘,例如探索性别、城乡居住类型等维度对诊断覆盖率的影响。其结构化格式与置信区间的包含,更使其在构建预测模型和卫生政策评估中备受青睐。
衍生相关工作
基于该数据集,学界已衍生出一系列经典工作,包括利用贝叶斯层次模型和地理加权回归等技术,绘制非洲高血压诊断不均等性的高分辨率图谱。另有研究将其与WHO其他非传染性疾病指标体系(如治疗覆盖、控制率)结合,构建综合性的‘连续护理’评价框架,以揭示从诊断到管理的全程差距。此外,该数据也催生了若干探讨性别与城乡差异对诊断结果影响的因果推断研究,深化了对社会决定因素作用机制的理解。
数据集最近研究
最新研究方向
在全球公共卫生领域,非洲地区高血压诊断覆盖率的时空动态演变已成为前沿焦点。该数据集涵盖了1990至2019年间47个非洲国家的诊断覆盖粗率,为剖析非传染性疾病(NCDs)的流行病学转型提供了关键量化支撑。结合世界卫生组织“全球高血压行动”倡议,研究者可借此揭示诊断差距与社会经济、医疗体系韧性的深层关联,尤其通过性别与城乡维度的分层分析,精准识别弱势群体的诊疗障碍。其在机器学习领域的应用——如基于Parquet格式的时序预测与多变量归因建模——正推动从描述性统计向预测性公共卫生决策的范式跃迁,对实现联合国2030年全民健康覆盖目标具有战略意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务