electricsheepafrica/africa-who-composite-coverage-index-cci2030
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-composite-coverage-index-cci2030
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1993年至2015年期间的WHO GHO指标“综合覆盖指数(%)”的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,包含数值型数据和置信区间。数据集覆盖40个非洲国家,总共有2,456行数据。数据还包含多个子维度,如教育水平、居住地区类型和财富五分位数等。数据集的模式包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间、显示字符串、维度类型和值等字段。
This dataset contains country-level observations for the WHO GHO indicator "Composite coverage index (%)" (`cci2030`) across African nations, spanning 1993–2015. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区国家层面的“综合覆盖指数(%)”指标(代码cci2030)。原始数据经过系统化清洗与重封装,统一以Parquet文件格式存储,并采用一致的字段结构。所有数值均提取自浮点精度的NumericValue字段,而非显示字符串,同时保留了置信区间上下限(value_low、value_high)。数据集覆盖1993年至2015年间40个非洲国家的2456条观测记录,每条记录均为国家、年份与分层维度的唯一组合,分层维度包括教育水平、居住地类型、财富五分位等,由WHO AFRO区域过滤器限定。
特点
本数据集的核心特点在于其结构化与多维性。它既提供了国家层面年度综合覆盖指数的点估计值,又通过dim1、dim2等字段实现了按性别、教育程度、城乡分布及财富水平等维度的分层分析。这种设计使得研究者能够灵活地提取全国性总体指标,或聚焦于特定子群体的覆盖率差异。此外,数据集包含置信区间信息,为统计推断提供了支撑。其一致性字段架构和Parquet格式的轻量化存储,使其天然适用于机器学习流水线,能够无缝集成至时间序列预测、分类或回归任务中。
使用方法
使用者可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset函数即可获得包含全部字段的DataFrame。推荐采用pandas进行后续处理:若需获取全国总体数据,可过滤dim1字段以保留以_BTSX结尾或缺失的行;对于单国时间序列分析,则按country_iso3字段筛选并依年份排序。数据集的列式结构支持对分层维度的快速筛选,例如通过residenceareatype区分城乡,或借助wealthquintile分析不同经济层级间的覆盖差异,从而服务于卫生政策评估与公平性研究等多样化的数据科学场景。
背景与挑战
背景概述
在非洲大陆,妇幼健康服务的覆盖与公平性长期以来是区域公共卫生治理的核心议题。世界卫生组织全球卫生观察站(WHO GHO)提出的综合覆盖指数(Composite Coverage Index, CCI2030)作为衡量孕产妇、新生儿及儿童健康干预覆盖水平的关键指标,能够从多维度揭示各国卫生系统的服务供给鸿沟。该数据集由Electric Sheep Africa团队于2023年从WHO GHO OData API提取并整理,涵盖1993至2015年间40个非洲国家,包含2456条记录,以统一的Parquet格式呈现,为机器学习建模提供了结构化、即用型的数据基础。作为非洲健康数据的标准化存储库,它不仅填补了该区域高质量、可复用数据集的空白,更为研究者在跨国家、跨时间序列上分析服务水平与不平等性提供了基准参考,成为推动数据驱动型非洲卫生政策制定的重要资源。
当前挑战
本数据集所解决的领域挑战聚焦于非洲区域妇幼健康干预覆盖度精确量化与预测的困难。由于各国卫生统计体系不完善、调查时间间隔不统一,原始数据在时间序列上呈现出稀疏性与异质性,且受限于人口调查(如DHS、MICS)的区域抽样设计,不同行政层级间的数据整合面临潜在偏差。在构建过程中,团队需应对WHO OData接口返回的多列维度(如教育水平、居住地类型、财富分位数)带来的数据重组织复杂性,确保每个国家—年份组合的跨维度记录能够正确对齐;同时,从'value_display'字符串中解析置信区间并映射至独立的浮点数域,亦需精细处理空值与格式不一致问题。此外,来自40个国家、覆盖23年的异构数据在分区与聚合时,必须保留用于统计推断所需的低层维度信息,这对数据管道的鲁棒性与通用性提出了较高要求。
常用场景
经典使用场景
该数据集以世界卫生组织全球卫生观察站发布的复合覆盖指数为核心,汇聚了1993至2015年间40个非洲国家的观测数据,旨在衡量关键妇幼健康干预措施的综合覆盖水平。其经典应用场景聚焦于国家层面与亚群体层面的健康绩效评估,通过整合教育水平、居住地类型及财富五分位数等社会人口分层维度,研究者能够深入剖析不同群体在健康服务可及性上的差异。这一数据集为追踪非洲地区全民健康覆盖进程、识别服务盲区以及评估政策干预效果提供了坚实的数据基础,成为健康公平性分析的宝贵资源。
解决学术问题
该数据集系统性地解决了非洲地区复合覆盖指数数据碎片化与标准缺失的学术难题。通过统一的数据模式整合多源信息,并纳入置信区间与分层变量,它突破了传统研究中单一维度分析的局限,使学者能够精确量化社会分层对健康覆盖的影响。这推动了在区域流行病学、健康经济学与全球卫生治理等领域的研究深化,例如揭示不平等的空间分布与时间演变趋势,其深远意义在于提供了证据基础,以指导资源优先分配并促进实现联合国可持续发展目标中关于全民健康覆盖的具体指标。
衍生相关工作
该数据集衍生出了一系列重要的研究工作,主要集中在对非洲全民健康覆盖进展的定量评估。研究者依托此数据构建了回归模型,用以剖析经济水平、治理能力与覆盖指数之间的关联;亦有工作将其与人口健康调查数据融合,验证覆盖指数在不同资源环境下的稳健性。此外,基于该数据的空间分析工作揭示了健康覆盖的地理不平等格局,为多国比较研究提供了范式,最终催生了关于如何有效减少健康覆盖差异的策略讨论,推动了干预实施方案的精化与创新。
以上内容由遇见数据集搜集并总结生成



