five

electricsheepafrica/africa-who-antenatal-care-coverage-at-least-four-visits-anc4

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-antenatal-care-coverage-at-least-four-visits-anc4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1993年至2019年间关于至少四次产前检查覆盖率(%)的WHO GHO指标数据,是Electric Sheep Africa项目的一部分。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,所有值均来自浮点精度字段NumericValue,而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖42个非洲国家,总行数为5,515行,并包含多个子维度,如年龄组、教育水平、居住地区类型、财富十分位数和财富五分位数等。

This dataset contains country-level observations for the WHO GHO indicator "Antenatal care coverage - at least four visits (in the two or three years preceding the survey) (%)" (`anc4`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区孕产妇产前保健覆盖率的监测指标——至少四次产前检查的百分比(anc4)。研究人员通过直接调用官方接口,获取原始数值型数据(NumericValue),而非字符串形式的展示字段,以确保数据精度。随后,将原始数据统一转换为Parquet格式,构建了包含42个非洲国家、1993年至2019年间共计5515条观测记录的标准化数据集。每条记录均涵盖国家代码、年份、点估计值及其置信区间上下限等核心字段,并区分了不同年龄组、教育水平、居住地类型及财富阶层等子维度,形成了结构化的分层数据。
特点
该数据集最显著的特征在于其全面的分层结构,涵盖了年龄组(15-19岁与20-49岁)、教育水平(未受教育、初等教育、中等及以上)、居住地类型(城市与农村)以及财富十分位数和五分位数等多个子维度,使得研究者能够深入分析不同社会人口学特征下的产前保健覆盖差异。此外,数据集不仅提供点估计值,还附带了置信区间信息,为统计推断提供了坚实基础。数据来源可靠,全部经过WHO官方认证,且采用统一的ISO国家代码和一致的字段命名规范,极大便利了跨国家、跨年度的比较分析与机器学习建模。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集:使用`load_dataset("electricsheepafrica/africa-who-antenatal-care-coverage-at-least-four-visits-anc4")`即可获取训练集,并转换为Pandas DataFrame进行后续分析。针对具体研究需求,可通过筛选dim1字段中带有'_BTSX'后缀或为空值的记录,获取全国层面且不分性别的数据;利用country_iso3字段结合年份排序,则可提取特定国家的时间序列趋势。数据集支持分类与回归两类任务,推荐以value_numeric作为主要预测目标,并可选地引入置信区间作为不确定性度量,适用于卫生政策评估、时空建模及社会经济学分析等场景。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织(WHO)全球卫生观察站(GHO)的开放数据整理而成,收录了1993至2019年间42个非洲国家的产前保健覆盖率指标,即至少接受四次产前检查的孕妇比例(ANC4)。作为一项关键的孕产妇健康监测指标,ANC4被广泛用于评估非洲地区卫生系统对孕产妇服务的可及性与利用水平。该数据集以统一的表格格式将时间、国家、地区、财富阶层、教育水平等多维度分层数据整合为机器学习就绪的Parquet文件,填补了非洲健康领域结构化、标准化时间序列数据的空白,为跨国家比较、趋势分析及预测建模提供了高质量基础数据源,对实现可持续发展目标中降低孕产妇死亡率的目标具有重要支撑作用。
当前挑战
该数据集解决的核心领域挑战在于非洲孕产妇健康服务的可测量性不足——长期以来,由于调查频率低、数据标准不一、分层变量复杂,难以从混杂的人口学特征中提取可靠的ANC4覆盖趋势。构建过程中的挑战包括:1)从WHO的OData API中提取并清洗非结构化、多语言标识的原始数据,确保数值字段与置信区间的一致解析;2)处理由年龄组、居住地类型、财富等级、教育水平等维度组合导致的冗余行,甄别并保留唯一观测;3)协调42个国家在面板跨度内数据缺失率较高的问题,例如早期年份或冲突地区样本稀疏。这些都要求精密的过滤与聚合逻辑,以平衡数据完整性、模型训练需求与统计推断的有效性。
常用场景
经典使用场景
在围产期健康研究领域,该数据集聚焦于非洲国家孕妇至少接受四次产前检查的覆盖率,是监测母婴健康服务可及性的核心指标。研究者常利用其多年跨国的面板数据结构,结合年龄、教育水平、居住地类型及财富五分位数等多维分层维度,精准刻画不同亚群间的服务利用差异。通过时间序列与横截面混合分析,可揭示产前保健覆盖率的时空演变规律,为区域健康干预效果评估提供量化基础。数据集中提供的置信区间边界进一步支持了不确定性量化,使其成为构建贝叶斯多层次模型或生存分析类预测任务的理想来源。
衍生相关工作
围绕该数据集已衍生出多项里程碑式的学术探索。研究者基于其时间序列属性构建了预测性模型,例如利用长短期记忆网络或梯度提升机,估算未观测年份的产前覆盖率,为数据稀疏地区的政策规划提供了替代方案。另一经典工作聚焦于公平性度量,通过计算教育水平与财富五分位数维度下的集中指数,量化了撒哈拉以南非洲产前保健获取的不平等程度。此外,该数据集被整合进非洲健康指标的综合数据库,与儿童免疫接种、孕产妇死亡率等指标联合分析,催生了探索初级卫生保健系统性协同效应的多指标联立方程模型,显著深化了对非洲卫生系统绩效的理解。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区产前保健覆盖率(至少四次就诊)的纵向监测与不平等分析,依托世界卫生组织全球卫生观察站数据,整合了1993至2019年间42个非洲国家的5,515条观测记录。当前前沿研究方向集中于利用机器学习模型(如时序预测与分类算法)揭示社会经济维度(如财富五分位数、教育水平、城乡居住地)与孕产妇保健可及性之间的深层关联,并量化地区间及人群亚组间的服务覆盖差异。该数据集的发布恰逢全球加速推进可持续发展目标3(良好健康与福祉)的关键时期,其结构化的分层变量(如年龄组、地域细分)为识别脆弱群体、评估卫生政策干预效果提供了高精度数据支撑。通过将官方统计转化为机器学习就绪格式,该资源显著降低了非洲健康数据在交叉学科研究中的使用门槛,有望推动基于证据的产前保健优化策略设计与区域性资源公平配置。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务