five

electricsheepafrica/africa-who-uhc-service-coverage-sub-index-on-noncommunicable-diseases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-uhc-service-coverage-sub-index-on-noncommunicable-diseases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家非传染性疾病UHC服务覆盖子指数(UHC_SCI_NCD)的国家级观测数据,时间跨度为2000年至2023年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了47个非洲国家,总行数为1,128行,区域筛选为WHO AFRO(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator "UHC Service Coverage sub-index on noncommunicable diseases" (UHC_SCI_NCD) across African nations, spanning 2000–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 1,128 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区全民健康覆盖服务覆盖指数中的非传染性疾病子指标(UHC_SCI_NCD)。数据经过系统性整合与标准化处理,采用Parquet格式存储,以提升机器学习任务的兼容性。所有观测值均提取自精确的浮点数值字段(NumericValue),并保留了置信区间上下界(value_low, value_high)。数据集覆盖2000至2023年间47个非洲国家的1128条记录,每条记录对应一个国家与年份的组合,确保时间序列与跨国比较的完整性。构建过程严格遵循WHO AFRO区域筛选标准,通过统一的数据模式(schema)实现跨国家与跨年份的平滑对齐。
特点
该数据集的核心特点在于其结构化与精细化设计。每一条观测记录均包含指标代码、国家ISO3代码、WHO区域标识、年份、数值估计及其置信区间、显示字符串、维度类型与维度值等十余个字段,为多维分析提供了坚实基础。尤其值得注意的是,该数据集支持按性别(SEX)或居住地类型(RESIDENCEAREATYPE)等维度进行分层分析,用户可通过dim1与dim2字段灵活筛选所需子群体。此外,数据集不包含子维度分层,每个国家与年份对应单一数值,简化了时间序列建模的复杂度。数据采用CC BY 4.0许可协议发布,源于权威的WHO官方数据源,确保了科学研究的可靠性与可复现性。
使用方法
用户可通过HuggingFace datasets库便捷加载该数据集,使用load_dataset函数即可将其直接读取为Pandas DataFrame格式,便于后续分析与建模。推荐首先通过过滤dim1字段中后缀为BTSX或空值的行,获取全国层面的男女综合数据。对于时间序列分析,可依据country_iso3列筛选特定国家,如肯尼亚(KEN),并利用year列进行排序。该数据集同时支持分类与回归任务,数值字段value_numeric可作为主要建模目标变量。此外,用户还可利用value_low与value_high字段进行不确定性量化或区间预测。数据集已整合为机器学习就绪格式,无需额外预处理即可投入模型训练与评估。
背景与挑战
背景概述
非传染性疾病已成为全球公共卫生领域的重大挑战,尤其是在撒哈拉以南非洲地区,其疾病负担正随着人口老龄化与生活方式变迁而持续攀升。在此背景下,世界卫生组织(WHO)通过全球卫生观察站(GHO)发布了全民健康覆盖(UHC)服务覆盖指数中的非传染性疾病子指数(UHC_SCI_NCD),旨在量化各国在非传染性疾病预防、治疗与监测方面的服务覆盖进展。该数据集由Electric Sheep Africa于2023年整理并发布,整合了2000至2023年间47个非洲国家的国家层面观测值,共计1,128条记录。通过将WHO官方数据重新加工为机器学习友好的Parquet格式,该数据集为研究非洲地区非传染性疾病干预成效、评估卫生系统绩效以及推动循证政策制定提供了标准化、可复用的核心指标资源。
当前挑战
该数据集所应对的领域核心挑战在于,非洲大陆普遍缺乏高质量、细粒度且时间跨度连续的非传染性疾病服务覆盖数据,导致跨国比较和趋势分析面临数据稀疏与不一致的困境。在构建过程中,需要处理WHO原始OData API中多源异构数据的整合难题,确保从大量分层变量(如性别、居住地类型)中准确提取国家年度汇总值,同时保留置信区间等关键统计信息。此外,数据清洗需甄别空值、避免显示字符串与浮点数值之间的精度损失,并应对部分国家历史数据缺失、区域定义差异(如WHO AFRO地区边界)等结构性问题,最终形成统一的模式以支持机器学习模型的直接调用与可靠分析。
常用场景
经典使用场景
该数据集聚焦于非洲地区全民健康覆盖中非传染性疾病服务覆盖子指数,覆盖2000至2023年间47个非洲国家的观测数据。其经典应用场景包括国家间非传染性疾病防控进展的比较分析、时间序列趋势建模,以及利用置信区间进行不确定性评估。数据以Parquet格式提供,结构一致,便于直接加载为机器学习就绪格式,支持回归与分类任务,是评估非洲非传染性疾病服务覆盖动态变化的标准化基准。
实际应用
在实际应用中,该数据集支持国际组织与政府机构评估非传染性疾病干预措施的覆盖效果,指导资源分配与政策制定。例如,世界卫生组织区域办事处可利用其追踪各国在高血压管理、癌症筛查等方面的服务扩展进度。公共卫生机构可将其作为输入,构建预测模型以预警覆盖不足的热点区域,优化医疗资源配置。数据亦可用于教育模拟,培训卫生经济学研究者掌握非洲健康的时空格局。
衍生相关工作
该数据集衍生的相关工作涵盖非洲卫生服务覆盖的空间统计建模与机器学习预测。经典工作包括利用时间序列分解技术揭示非传染性疾病服务覆盖的长期趋势与周期性波动;基于混合效应模型评估国家政策对覆盖指标的影响;以及开发集成学习框架融合该数据与其他社会经济变量,构建健康结局预测器。此外,该数据集常与WHO全球健康观察站的其他子指标结合,用于多维度全民健康覆盖指数的复合分析。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务