electricsheepafrica/africa-who-antenatal-care-coverage-at-least-four-visits-anc45
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-antenatal-care-coverage-at-least-four-visits-anc45
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1993年至2019年间,世界卫生组织全球健康观察站(WHO GHO)关于“产前护理覆盖率 - 至少四次访问(调查前五年内)(%)”指标(anc45)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Antenatal care coverage - at least four visits (in the five years preceding the survey) (%)" (`anc45`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区产前保健覆盖率指标(至少四次访视)。构建过程中,研究者从原始API中提取以浮点精度存储的数值字段(NumericValue)作为核心数据源,而非使用显示字符串。数据被重新封装为Parquet文件格式,并统一了模式架构,同时保留了置信区间边界(value_low和value_high)等信息。数据集涵盖1993年至2019年间37个非洲国家的3,632条观测记录,并按照WHO AFRO区域进行过滤,确保了数据的地域针对性和时间跨度的一致性。
特点
该数据集的一个显著特点在于其多维分层结构,支持按年龄组(AGEGROUP)、教育水平(EDUCATIONLEVEL)、居住地类型(RESIDENCEAREATYPE)、财富十分位数(WEALTHDECILE)等维度进行细粒度分析。当指标按性别或年龄组分层时,每个国家、年份与维度的唯一组合生成独立行,便于用户通过dim1/dim2字段筛选所需层次或跨层次聚合。此外,数据集还包含了置信区间字段,为统计推断提供了可靠支撑,使其成为机器学习与流行病学研究的理想资源。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,例如使用load_dataset函数直接获取训练集,并转换为Pandas DataFrame进行后续操作。典型用法包括依据dim1字段筛选出全国层面(两端为_BTSX或为空)的数据,或通过country_iso3列提取特定国家(如肯尼亚)的时间序列。数据集的模式设计清晰,包含indicator_code、value_numeric等关键列,支持回归与分类任务,且原始数据采用CC BY 4.0许可,便于学术研究与模型训练。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年左右整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区孕产妇产前保健覆盖率指标(至少四次产前检查,ANC45)。数据集覆盖1993至2019年间37个非洲国家,共计3632条国家层面观测记录,旨在为机器学习与数据科学提供统一、一致且立即可用的结构化数据。作为非洲健康数据整合的重要资源,该数据集服务于孕产妇健康研究、公共卫生政策评估及可持续发展目标监测,支撑对非洲区域产前保健服务获取不平等性的量化分析,推动数据驱动的发展干预。
当前挑战
该数据集面临的核心挑战包括:领域问题上,孕产妇产前保健覆盖率受社会经济地位、教育水平、居住地类型及年龄层等多维度因素交互影响,且非洲各国调查方法、数据质量及时序间隔存在显著差异,导致跨国家可比性不足。构建过程中,需从WHO API中提取并清洗大量异构数据,处理缺失置信区间及不同分层维度(如年龄组、财富五分位)的合并难题;同时确保不同年份与国家对指标定义的统一,并应对部分国家采样策略与代表性差异带来的偏倚风险,维护数据集在机器学习应用中的稳健性。
常用场景
经典使用场景
在非洲区域孕产妇健康与公共卫生监测的研究中,该数据集是评估孕期保健服务可及性与利用率的经典资源。它提供了1993至2019年间37个非洲国家至少完成四次产前检查的妇女比例,整合了年龄组、教育水平、居住地类型及财富分位数等社会人口分层维度。研究者常将其作为衡量医疗系统覆盖效能的核心指标,通过时间序列与空间对比分析,揭示不同国家及亚群体间的服务差距。
实际应用
实际应用中,该数据集为世界卫生组织及非洲各国卫生部门规划产前保健服务优先级提供了数据支撑。它被用于识别覆盖率薄弱的农村与低财富阶层群体,指导资源向高需求区域倾斜;同时服务于非政府组织监测千年发展目标与可持续发展目标的实现进程。此外,其地理与时间粒度的丰富性使其成为医疗人工智能模型训练与健康模拟系统的基准输入。
衍生相关工作
基于此数据衍生出一系列经典工作,包括对非洲产前保健覆盖率时空异质性的机器学习建模研究,其中梯度提升与贝叶斯层次模型被广泛用于预测波动趋势。部分工作将其与社会经济指标融合,构建多源面板数据以剖析教育、财富与城镇化对产检行为的交互效应。亦有学者提取价值值作为标签,训练回归网络以推断缺失地区的覆盖率,从而拓展了全球健康统计的推断方法论体系。
以上内容由遇见数据集搜集并总结生成



