five

electricsheepafrica/africa-who-composite-coverage-index-cci

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-composite-coverage-index-cci
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1993年至2019年期间的WHO GHO指标Composite coverage index (%)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段,而不是显示字符串。此外,还包含了可用的置信区间边界(value_low, value_high)。数据集覆盖了40个非洲国家,总行数为4,842行,并且按WHO AFRO区域进行过滤。数据集还包含多个子维度,如教育水平、居住地区类型和财富分位数等。

This dataset contains country-level observations for the WHO GHO indicator Composite coverage index (%) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦非洲地区国家层面的“综合覆盖指数(CCI)”指标。原始数据经由OData API采集,以Parquet格式存储,并统一为便于机器学习应用的标准化架构。所有数值均提取自高精度浮点型字段,同时保留置信区间上下界(value_low和value_high)。数据集涵盖1993年至2019年间40个非洲国家的4842条观测记录,每条记录按照国家、年份及分层维度(如教育水平、居住地类型、财富五分位等)进行唯一组合,维度信息通过dim1与dim2字段标识。
特点
该数据集的突出之处在于其多维度分层结构,支持按性别、教育程度、居住区域和财富等级等子维度进行细致分析。不同层级的观测值独立存在,使得用户能够灵活过滤或聚合,以探索特定亚群的健康覆盖差异。此外,数据集附带置信区间信息,增强了统计推断的可靠性。作为Electric Sheep Africa项目的一部分,数据以机器学习的就绪格式提供,且遵循CC BY 4.0开放许可,便于学术研究与应用开发,特别适合非洲公共卫生领域的纵向趋势分析与预测建模。
使用方法
用户可以通过HuggingFace的datasets库轻松加载该数据集,例如执行load_dataset("electricsheepafrica/africa-who-composite-coverage-index-cci")后,数据即转换为Pandas DataFrame格式。对于国家级别的男女合计指标,可借助dim1字段筛选以_BTSX结尾或为空的记录。若需分析特定国家的时间序列,如肯尼亚,则可按country_iso3字段过滤并依年份排序。研究人员亦可根据dim1_type和dim2_type字段对分层维度进行组合查询,实现从整体到局部的灵活数据探索。
背景与挑战
背景概述
非洲大陆在全球公共卫生进程中长期面临资源分配不均与健康指标监测薄弱的双重困境。世界卫生组织(WHO)为评估各国孕产妇与儿童健康干预覆盖的均衡性,构建了复合覆盖率指数(Composite Coverage Index, CCI),该指标整合了八项关键干预措施的覆盖率,成为衡量初级卫生保健系统绩效的核心工具。由Electric Sheep Africa团队于2023年创建的africa-who-composite-coverage-index-cci数据集,系统性整理了1993至2019年间40个非洲国家的CCI官方观测值,数据直接源自WHO全球卫生观察站(GHO)的OData API,并经标准化处理为机器学习友好的Parquet格式。该数据集不仅提供了点估计值,还纳入了置信区间与多维分层信息(如教育水平、财富五分位、居住地类型等),显著提升了数据在细粒度分析中的可用性,为非洲健康不平等研究、干预策略优化以及可持续发展目标监测提供了高价值的基础资源。
当前挑战
该数据集所应对的核心领域挑战在于:非洲国家因卫生信息系统薄弱,传统健康干预覆盖率数据常存在时滞长、口径不一、缺失值显著等问题,难以支撑精准的政策制定。尤其CCI综合了多种干预指标,其跨维度的一致性校验与缺失数据插补成为技术难点,而现有国际数据库(如GHO)的原始格式不便于机器学习直接应用,阻碍了预测建模与时空趋势分析的自动化进程。在数据构建过程中,团队面临的挑战包括:从ODA接口抽取的原始数据存在数值与显示字符串混杂、置信区间字段偶尔缺失、以及多维分层(如性别、地域)导致的庞杂重复条目,需设计统一的清洗与聚合策略,避免维度爆炸与信息冗余。此外,政权更迭或统计标准变迁引发的年份与国家覆盖不连续,要求构建鲁棒的合并逻辑以保留时间序列的完整性。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集最经典的使用场景是评估非洲各国儿童基本健康干预措施的覆盖水平。复合覆盖率指数(CCI)整合了疫苗接种、孕产妇保健、儿童营养等多维指标,研究者可借助该时序数据纵向追踪1993至2019年间40个非洲国家的覆盖变化趋势,亦可通过性别、城乡、财富五分位等亚组维度剖析健康不平等现象。其结构化的国家-年份-子维度分层模式,为构建面板回归模型或空间流行病学分析提供了理想的数据基底。
衍生相关工作
基于该数据集,衍生工作主要围绕健康覆盖的预测建模与不平等度量展开。研究者凭借其亚组细分特征(如财富五分位、教育水平)构建了混合效应模型,揭示社会人口学因素对覆盖指数的异质性影响。此外,在机器学习领域,该数据集被用于训练回归模型预测未观测年份的国家级覆盖值,或作为协变量纳入母婴健康结局的因果推断框架。这些工作深化了对非洲健康转型动力的理解,并推动了可复现的开放科学实践。
数据集最近研究
最新研究方向
在非洲公共卫生领域,复合覆盖指数(CCI)作为衡量妇幼健康干预措施综合覆盖程度的关键指标,正引领着数据驱动的健康政策与机器学习交叉研究的前沿。该数据集整合了1993至2019年间40个非洲国家的纵向观测数据,并细化了教育水平、居住区类型及财富分位数等维度,为探索健康不平等的社会经济根源提供了高分辨率素材。近期研究热点聚焦于利用时序预测与因果推断模型,解析CCI波动与重大公共卫生事件(如埃博拉疫情、疟疾防控项目)间的动态关联,同时结合财富与地理分层,揭示撒哈拉以南非洲地区在实现全民健康覆盖目标中的结构性障碍。其开源的CC BY 4.0许可与Parquet格式更促进了可复现的跨学科合作,为全球健康治理中的精准干预策略提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作