five

electricsheepafrica/africa-who-births-by-caesarean-section-csection5

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-births-by-caesarean-section-csection5
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1993年至2019年间通过剖腹产分娩的百分比数据,来源于WHO全球健康观察站(GHO)。数据集涵盖了37个非洲国家,总计3,538行数据,覆盖了多个子维度如年龄组、教育水平、居住地区类型、财富十分位数和五分位数等。数据以Parquet格式提供,包含了数值估计、置信区间和显示字符串等信息。

This dataset contains country-level observations for the WHO GHO indicator "Births by caesarean section (in the five years preceding the survey) (%)" (`csection5`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家在调查前五年内通过剖宫产分娩的比例(指标代码csection5)。原始数据经过系统化清洗与重构,保留了NumericValue字段的浮点精度值作为核心指标,同时纳入了置信区间上下界(value_low, value_high)以增强统计可靠性。数据集以Parquet格式存储,采用统一的列式架构,覆盖了37个非洲国家从1993年至2019年的3,538条观测记录,并依据WHO AFRO区域代码进行过滤。
特点
这一数据集的核心特色在于其多维分层结构,涵盖了年龄组(AGEGROUP)、教育水平(EDUCATIONLEVEL)、居住区域类型(RESIDENCEAREATYPE)、财富十分位(WEALTHDECILE)及财富五分位(WEALTHQUINTILE)等细粒度维度。每个观测值均通过country_iso3、year与维度标签(dim1, dim2)唯一标识,支持按国家、时间及亚群进行精准的交叉分析。此外,数据集整合了展示字符串(value_display)与浮点数值,兼顾了机器学习的数值输入需求与人类可读的格式化输出。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,调用load_dataset函数后即可将训练集转换为Pandas DataFrame进行深入分析。推荐使用维度过滤策略,例如通过筛选dim1字段中结尾为'_BTSX'的值或空值来获取全国层面的两性汇总数据。对于时间序列研究,可按国家代码(country_iso3)过滤并依据年份排序。需要注意的是,当指标存在分层时,每个独特的国家-年份-维度组合会生成独立行,用户应依据自身分析目标选择合适的维度聚合或过滤方式。
背景与挑战
背景概述
剖宫产作为挽救母婴生命的重要外科干预手段,其使用率的全球性增长已成为公共卫生领域关注的焦点。世界卫生组织全球卫生观察站(WHO GHO)发布的非洲剖宫产出生率数据集(csection5),由Electric Sheep Africa团队于2024年前后整理并公开,旨在为机器学习与统计建模提供标准化的结构化数据。该数据集覆盖1993至2019年间37个非洲国家的3538条观测记录,核心研究问题是揭示非洲大陆剖宫产率的时空分布格局及其与社会经济、教育、居住地等维度的关联。作为首个面向机器学习的非洲剖宫产率整合型数据集,它填补了非洲区域健康指标数据在数据科学应用中的空白,为全球健康不平等研究、政策制定及预测模型开发提供了可靠的数据基础,对推动非洲公共卫生循证决策具有重要影响力。
当前挑战
该数据集所解决的领域问题在于,剖宫产率的异常升高或降低均可能反映医疗资源可及性、产科服务质量及文化偏好等复杂因素,传统的健康统计报告难以支持多维度交互分析。构建过程中面临多重挑战:首先,WHO原始数据以OData API提供,需设计统一架构从异构的JSON响应中提取浮点精度的数值字段,而非显示字符串,以避免精度损失;其次,数据包含年龄组、教育水平、财富十分位数等复杂分层维度,不同国家与年份的维度组合在生产唯一标识时易出现冗余或丢失;最后,37个国家的时间跨度长达26年,部分观测缺失置信区间,需在保持数据完整性前提下兼容缺失值,并为后续模型训练预留灵活的过滤与聚合接口。
常用场景
经典使用场景
该数据集收录了1993年至2019年间37个非洲国家剖宫产分娩比例的调查数据,指标代码为csection5,源自世界卫生组织全球卫生观察站。其经典使用场景在于构建时序预测模型与分类任务,研究者可基于年份、国家、年龄组、教育水平、居住地类型及财富分位数等维度,预测剖宫产率的变化趋势或划分高风险人群。数据以Parquet格式提供,包含点估计值及置信区间,便于直接接入机器学习流水线,为非洲区域孕产妇健康研究提供了标准化的数据基础。
实际应用
在实际应用领域,该数据集服务于国际卫生组织与非洲各国卫生部门的监测与决策制定。它可用于评估国家剖宫产率是否达到世界卫生组织建议的合理区间,指导产科资源区域配置与医疗质量改进计划。公共卫生从业者亦可借助该数据识别剖宫产率异常高或低的地区,排查非医学指征手术或服务可及性不足的问题,从而设计精准干预方案。此外,非政府组织在开展孕产妇健康项目时,可依据该数据设定基线指标并追踪项目成效。
衍生相关工作
基于该数据集衍生的经典工作包括利用时间序列模型与空间统计方法对非洲剖宫产率进行趋势预测与地理分布聚类分析。部分研究将其与健康公平性指标结合,构建了社会经济梯度视角下的剖宫产率回归模型,揭示了财富五分位与城乡居住类型对手术利用率的调节效应。此外,该数据也被纳入多源健康数据融合框架,与孕产妇死亡率、新生儿结局等指标联动分析,推动了跨维度因果推断研究的发展。Electric Sheep Africa项目对其进行的标准化重封装,进一步促进了可重复性研究与开放科学实践。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务