five

electricsheepafrica/africa-who-births-attended-by-skilled-health-personnel-0000000025

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-births-attended-by-skilled-health-personnel-0000000025
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了世界卫生组织全球健康观察站(WHO GHO)指标由熟练卫生人员接生的百分比(MDG_0000000025)在非洲国家层面的观测数据,时间跨度为2000年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,采用一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator Births attended by skilled health personnel (%) (MDG_0000000025) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区“由熟练卫生人员接生的比例”(指标代码MDG_0000000025)这一关键母婴健康指标。数据被系统性地提取并重新封装为Parquet格式文件,以统一的标准化模式呈现,确保数据在机器学习任务中的易用性。所有数值均源自API中的NumericValue字段(浮点精度),而非显示字符串,同时保留了置信区间边界值(value_low和value_high),为统计推断提供了可靠基础。数据集覆盖了2000年至2024年间47个非洲国家的311条观测记录,且仅包含WHO非洲区域(ParentLocationCode='AFR')的数据,无额外的子维度分层,每个国家与年份组合对应单一数值,结构简洁清晰。
特点
该数据集的一大显著特点在于其高度聚焦的地域与时间覆盖范围,精准锁定非洲大陆的47个国家,时间跨度长达二十余年,为区域健康趋势的长时序分析提供了宝贵资源。数据来源权威,直接取自WHO官方开放数据,并采用CC BY 4.0许可协议发布,确保了透明性与可复现性。在架构设计上,数据集包含丰富的元数据列,如indicator_code、country_iso3、who_region、year以及核心的value_numeric、value_low和value_high,同时保留了dim1_type、dim1等维度信息,即便本指标无子维度,也为未来扩展或与其他指标联合分析预留了接口。此外,数据以Parquet格式存储,兼容HuggingFace datasets库,可无缝集成至机器学习流程。
使用方法
使用该数据集时,首选通过HuggingFace的datasets库加载,仅需一行代码即可获取训练集并转换为Pandas DataFrame,便于后续分析与建模。针对本指标无子维度的特性,用户可通过过滤dim1字段中后缀为_BTSX或缺失值的行,快速提取全国总体水平的数据。对于时间序列分析,可依据country_iso3列筛选特定国家,如'KEN'代表肯尼亚,并通过sort_values('year')按年份排序,追踪接生比例的动态变化。由于数据量较小(n<1K),适合作为分类或回归任务的轻量级基准数据集,可直接将value_numeric作为目标变量,使用value_low和value_high进行不确定性量化,或结合其他非洲健康指标进行多变量分析。
背景与挑战
背景概述
在全球公共卫生监测体系中,熟练卫生人员接生比例(Births attended by skilled health personnel, %)是评估孕产妇与新生儿健康服务可及性的核心指标,亦是联合国千年发展目标(MDG)的重要监测内容。世界卫生组织(WHO)全球卫生观察站(GHO)自2000年起系统收集并发布该指标的各国统计数据,为政策制定与资源分配提供关键依据。该数据集由Electric Sheep Africa团队于2024年整理发布,源自WHO GHO官方OData API,聚焦非洲地区47个国家2000至2024年间共311条观测记录,并以统一的机器学习就绪格式封装为Parquet文件。数据涵盖了国家层面的点估计值及置信区间,便于研究人员直接用于回归或分类任务,显著降低了非洲健康数据的获取与预处理门槛,对推动非洲大陆卫生领域的机器学习应用具有重要基础性贡献。
当前挑战
该数据集对应的核心领域挑战在于,熟练卫生人员接生比例作为孕产妇死亡风险的关键代理变量,其准确估计与跨时空可比性直接关系到非洲孕产妇健康干预措施的成效评估与资源精准投放。非洲地区长期存在卫生信息系统薄弱、数据采集标准不一、报告延迟等结构性问题,导致原始数据中部分年份或国家的观测存在缺失,置信区间较宽,影响模型训练的稳定性与泛化能力。在构建过程中,团队面临从API原始响应中解析多种数值表示格式、统一不同版本数据schema、处理缺失的维度信息(如性别、城乡分层)以及确保与后续多数据集融合时的时间戳一致性等挑战。此外,将原本面向展示的字符串数值(value_display)与浮点型数值(value_numeric)对齐,并保留可用的置信区间上下界,进一步增加了数据清洗的复杂度,需兼顾精度保持与下游可用性。
常用场景
经典使用场景
该数据集围绕世界卫生组织全球卫生观察站的关键指标——由熟练卫生人员接生的比例,汇聚了2000至2024年间47个非洲国家的纵向观测数据。其经典用途在于构建非洲大陆层面的母婴健康监测模型,研究者可借助其时间序列与国别结构,分析熟练接生率随年份的动态演变趋势,评估各国在联合国千年发展目标第五项上的推进成效,并探究医疗卫生基础设施与相关政策对孕产妇健康水平的潜在影响。
解决学术问题
该数据集有效解决了非洲地区高质量、标准化母婴健康指标数据稀缺的学术困境。它使研究者得以跨越时空局限,量化分析经济贫困、医疗资源分布不均、地域冲突等变量如何制约熟练接生服务的可及性,并揭示各国在实现全民健康覆盖过程中所面临的瓶颈。借助该数据,学术界能更精准地识别干预措施的优先级,为制定循证公共卫生策略提供坚实的数据根基。
衍生相关工作
围绕该数据集已衍生出多项经典学术工作。部分研究利用其纵向面板数据构建了非洲各国接生率的时间序列预测模型,探讨公共医学干预如社区健康工作者计划的长期效果。另一些工作则将之与新生儿死亡率、妇女教育水平及人均卫生支出等数据集进行关联分析,揭示社会决定性因素对母婴健康的传导路径。此外,该数据还催生了多篇关于联合国千年发展目标落实差异的比较研究,成为非洲公共卫生政策评估领域的基准数据源。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务