electricsheepafrica/africa-who-births-by-caesarean-section-csection
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-births-by-caesarean-section-csection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“剖宫产分娩(调查前两到三年内)百分比”(`csection`)在非洲国家的国家级观察数据,时间跨度为1993年至2019年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Births by caesarean section (in the two or three years preceding the survey) (%)" (`csection`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区剖宫产出生比例这一关键公共卫生指标。原始数据通过统一架构的Parquet文件重新打包,所有数值均提取自高精度浮点字段`NumericValue`,而非显示字符串,同时保留置信区间边界字段`value_low`与`value_high`。数据集涵盖1993至2019年间42个非洲国家的5,298条观测记录,每条记录代表国家、年份与细分维度的唯一组合。
特点
数据集核心优势在于其丰富的分层结构,包含年龄组、居住地类型、教育水平、财富十分位与五分位等五个子维度,支持精细化的亚组分析。所有数据均经过WHO AFRO区域筛选,确保地域一致性。除点估计值外,还提供置信区间信息,便于统计推断。这套数据以机器学习就绪的格式呈现,免去研究者繁琐的数据清洗流程。
使用方法
用户可通过HuggingFace Datasets库直接加载数据集,调用`load_dataset`函数后转为Pandas DataFrame进行分析。为获取全国层面两性混合数据,可依据`dim1`字段筛选以`_BTSX`结尾或为空的行。按国家分析时间序列时,只需对`country_iso3`字段进行过滤并按年份排序。数据集兼具分类与回归任务适用性,适合构建预测模型或开展流行病学趋势研究。
背景与挑战
背景概述
剖宫产是评估孕产妇和新生儿健康服务可及性与质量的关键指标,其过度使用或不足均折射出卫生系统的深层问题。该数据集名为非洲世界卫生组织全球卫生观察站剖宫产出生率数据集,由Electric Sheep Africa团队于2023年前后整理发布,核心数据源自WHO全球卫生观察站,覆盖1993至2019年间42个非洲国家的剖宫产率观测值,总量达5298条。该数据集聚焦于量化非洲大陆剖宫产使用的地理差异与时间演变,为流行病学与卫生政策研究提供了标准化、机器学习友好的数据基础设施,尤其在揭示非洲卫生系统韧性与不平等性方面具有重要学术价值。
当前挑战
该数据集所应对的领域问题核心在于:剖宫产率作为健康服务指标,在非洲长期面临数据碎片化、标准不统一且缺乏纵向可比性的困境,严重阻碍了跨国别与跨年代的卫生系统绩效评估。构建过程中面临的挑战则包括:原始WHO GHO数据以不同维度(如年龄、教育、财富五分位、城乡)分层记录,如何在不丢失亚组信息的前提下清洗、对齐并整合为统一模式,同时处理大量置信区间缺失值和地理区域编码差异,以确保数据集的完整性与建模可靠性,是构建工作最棘手的难题。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于分析剖宫产率的时空变迁趋势。研究人员常借助其覆盖42个非洲国家、跨越1993至2019年的长时段观测记录,结合年龄组、教育水平、居住地类型及财富分位数等多维分层变量,揭示剖宫产率在不同社会人口学特征群体中的分布差异。这一经典应用场景为理解非洲大陆孕产妇健康服务的不平等性提供了坚实的数据基础。
实际应用
在实际应用层面,该数据集为非洲各国卫生政策制定者评估孕产妇保健项目效果提供了关键工具。利用其按财富十分位数和居住地类型细分的剖宫产率数据,可以精准定位需要干预的目标人群,例如针对农村低收入群体提升基本产科急诊服务的可及性,或在高私有化地区遏制非医学指征的剖宫产手术滥用。此外,国际组织如世界银行和联合国儿童基金会也常以此为输入,优化非洲地区的母婴健康援助策略与资源分配方案。
衍生相关工作
基于该数据集,学术界涌现了一系列具有影响力的衍生工作。一方面,学者们开发了融合时空统计模型与机器学习算法的预测框架,用以估计无调查记录年份的剖宫产率,填补非洲卫生数据空白;另一方面,有研究将其与生殖健康调查中的孕产妇死亡率关联分析,构建了剖宫产率与分娩安全性的非线性风险模型。这些工作不仅深化了对非洲产科护理转型的理解,也推动了开源数据在低资源地区循证决策中的范式转化。
以上内容由遇见数据集搜集并总结生成



