electricsheepafrica/africa-who-births-attended-by-skilled-health-personnel-sba5
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-births-attended-by-skilled-health-personnel-sba5
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“由熟练卫生人员接生的百分比(调查前五年内)”(sba5)在非洲国家的国家级观测数据,时间跨度为1993年至2019年。数据来源于WHO全球健康观察站的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖37个非洲国家,总行数为3,632行,并包含多个子维度如年龄组、教育水平、居住地区类型等。
This dataset contains country-level observations for the WHO GHO indicator "Births attended by skilled health personnel (in the five years preceding the survey) (%)" (`sba5`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,由Electric Sheep Africa项目团队进行系统化整合与重封装。数据提取过程中,严格遵循OData API的标准化查询框架,聚焦于非洲区域(WHO AFRO)范围内1993年至2019年间的国家层面观测值。所有数值字段均采用浮点精度类型(NumericValue)而非显示字符串,以保障机器学习建模的数值一致性。对于存在置信区间的记录,同时保留了上下界值(value_low、value_high)。最终以Parquet格式统一存储,并构建了包含国家代码、年份、指标编码及维度属性在内的规范化模式(Schema),确保数据具备良好的跨任务兼容性。
使用方法
数据集的使用过程极为便捷,支持直接通过HuggingFace Datasets库进行加载与调用。用户只需执行一行Python代码即可将数据转换为Pandas DataFrame格式,进而开展探索性数据分析或模型训练。针对特定分析需求,可借助维度字段(如dim1、dim2)实现灵活过滤,例如通过筛选dim1值以`_BTSX`结尾的记录来获取全国层级的男女合计数据,或通过国家代码字段(country_iso3)快速提取特定国家的时间序列。数据集既适用于二分类任务(如判断是否达到特定卫生服务覆盖率阈值),也适用于回归任务(如预测连续百分率指标),充分满足卫生经济学与公共卫生领域的多类建模场景。
背景与挑战
背景概述
在全球公共卫生领域,熟练助产人员的覆盖率是衡量孕产妇和新生儿健康的关键指标,直接关联联合国可持续发展目标中降低孕产妇死亡率的目标。由世界卫生组织(WHO)全球健康观察站(GHO)维护的该数据集,经Electric Sheep Africa团队重新整理并发布于HuggingFace平台,时间跨度覆盖1993年至2019年,包含37个非洲国家的3632条观测记录。其核心研究问题在于通过标准化的指标代码sba5,追踪并分析非洲大陆受调查前五年内分娩过程中由熟练卫生人员接生的比例,为区域卫生政策制定与干预效果评估提供数据支撑。该数据集不仅统一了WHO OData API的异构数据结构,还以Parquet格式和一致的Schema呈现,极大降低了机器学习的应用门槛,对推动非洲健康数据科学、流行病学建模及卫生系统绩效评价产生了深远影响。
当前挑战
该数据集所应对的领域挑战在于,孕产妇死亡率在撒哈拉以南非洲地区居高不下,贫困、地理隔离与卫生系统薄弱导致大量分娩缺乏专业照护,亟需细粒度、跨时空的数据来识别高危人群与地理热点。然而,构建过程面临多重困难:首先,数据来源覆盖37个国家,不同国家调查方法(如DHS、MICS)存在差异,导致指标定义与采样框架不一致;其次,数据中包含丰富的子维度(如年龄组、教育水平、财富五分位、居住地类型),但部分组合存在稀疏性或缺失值,增加了统计推断的复杂性;此外,WHO原始接口返回的置信区间字段(value_low、value_high)并非对所有观测均可用,模型训练时需谨慎处理不确定信息的传播,这些挑战要求研究者在数据清洗、缺失值插补及分层分析中采用稳健的统计学方法。
常用场景
经典使用场景
在非洲公共卫生研究领域,该数据集最为经典的使用场景是监测和评估非洲各国孕产妇保健服务的可及性与质量。通过分析1993至2019年间37个非洲国家中由熟练卫生人员接生的比例,研究者能够追踪各国在降低孕产妇死亡率方面的进展。数据集中丰富的分层维度,如年龄组、教育水平、居住地类型和财富五分位,使得研究者可以深入剖析不同亚群之间的差异,揭示社会经济不平等对孕产妇健康服务利用的影响。这为比较各国卫生系统绩效、识别需要优先干预的弱势群体提供了坚实的数据基础。
解决学术问题
该数据集有效解决了非洲地区长期缺乏标准化、跨国家可比的孕产妇健康服务指标这一学术难题。它使研究者能够量化社会经济发展水平、教育普及程度及城乡差异等变量与熟练接生率之间的关联,从而实证检验健康社会决定因素理论。通过纳入置信区间,数据集还支持对估计值的不确定性进行严谨评估,促进了更可靠的统计推断和预测建模。这些分析不仅深化了对非洲孕产妇健康变迁规律的理解,也为验证世界卫生组织倡导的全球战略在区域层面的适用性提供了关键实证。
实际应用
在实际应用层面,该数据集直接服务于非洲各国卫生部门的政策制定与规划优化。公共卫生机构可利用其时间序列数据监测国家及区域层面孕产妇保健干预措施的实施效果,动态调整资源分配策略。非政府组织和国际发展机构则能依据数据揭示的财富和教育分层信息,精准设计针对农村、贫困及低教育水平群体的健康促进项目。此外,机器学习研究人员依托该数据集构建的预测模型,可事前评估不同干预情景对熟练接生覆盖率的潜在影响,为循证决策提供前瞻性支持。
数据集最近研究
最新研究方向
该数据集聚焦于非洲孕产妇保健领域的关键指标——由熟练卫生人员接生的比例(sba5),是衡量全球可持续发展目标(SDG 3.1)进展的核心参数。近期研究前沿集中于利用机器学习与时空建模技术,结合该数据集的亚维度分层(如年龄组、教育水平、居住地类型及财富分位数),揭示非洲地区孕产妇健康服务的区域异质性与不平等性。同时,该数据集与WHO全球卫生观察站数据联动,驱动了关于COVID-19疫情后孕产妇护理服务恢复力的比较研究,以及通过置信区间融合多源调查(如DHS、MICS)以提升估计精度的贝叶斯方法创新。这些工作不仅为非洲各国制定精准卫生政策提供了数据驱动决策支持,也推动了全球健康数据科学中开放数据标准化与机器可读性进程,对实现2030年全民健康覆盖具有深远影响。
以上内容由遇见数据集搜集并总结生成



