electricsheepafrica/africa-who-stillbirth-rate
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-stillbirth-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2000年至2023年WHO GHO指标每千例总分娩中的死产率(WHOSIS_000014)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并被重新打包为Parquet文件。数据集涵盖了47个非洲国家,共1,128行数据,包括数值估计、置信区间边界等信息。
This dataset contains country-level observations for the WHO GHO indicator Stillbirth rate (per 1000 total births) (WHOSIS_000014) across African nations, spanning 2000–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区2000至2023年间死产率(每千例活产中的死产数)这一关键健康指标。原始数据经系统化清洗与整合后,以Parquet格式统一封装,确保机器学习就绪性。数据集中每个观测记录均对应特定国家与年份的组合,并完整保留了原始浮点精度的数值型指标值(NumericValue)及其置信区间上下限(value_low、value_high),排除了展示字符串的干扰。对于按性别、居住地类型等维度进行分层的指标,每个分层组合均独立成行,维度类型与取值分别存储于dim1_type、dim1等字段中。
特点
该数据集覆盖了47个非洲国家,包含1128条记录,时间跨度长达24年,为纵向跨地区死产率研究提供了丰富的数据基础。其核心特点在于指标值的科学性和完整性——所有数值均为精确浮点数,且附有置信区间,便于进行统计推断和不确定性量化。此外,数据集保留了原始的分层信息,允许研究者按性别(如SEX_BTSX代表两性合计)或居住地类型进行过滤分析,灵活适配不同研究视角。数据来源权威(WHO GHO),授权宽松(CC BY 4.0),且经过统一规范化处理,显著降低了数据清洗与预处理的成本。
使用方法
研究者可通过HuggingFace Datasets库直接加载该数据集,一行代码即可获取训练集并转换为Pandas DataFrame进行后续分析。使用时可借助dim1字段过滤特定分层,例如通过判断dim1是否以'_BTSX'结尾来提取两性合计的国家级数据。对于时间序列分析,可按国家代码(如KEN)筛选并依据year列排序,构建单一国家或区域性的死产率变化趋势。数据集内不包含缺失值处理逻辑,但在统计建模前建议对置信区间字段进行合理利用,例如将其作为权重或不确定性估计输入。整个数据加载与筛选过程无需手动下载文件,操作便捷,适合嵌入机器学习流水线。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年从世界卫生组织(WHO)全球卫生观察站(GHO)的OData API中提取并重新打包,旨在为非洲地区提供一份统一、机器学习就绪的死产率数据资源。死产率(每千例总出生中的死产数,指标代码WHOSIS_000014)是评估孕产妇和新生儿健康水平的核心指标之一,直接关联联合国可持续发展目标中关于消除可预防的新生儿死亡的具体目标。数据集覆盖2000年至2023年间47个非洲国家,共计1128条观测记录,并包含置信区间、性别分层等辅助字段,为研究非洲大陆死产率的时间演变、区域差异及社会决定因素提供了高质量的数据基础。该数据集的出现填补了现有公共卫生数据库中非洲地区死产率数据碎片化、格式不统一的缺口,已成为推动非洲健康政策制定和机器学习建模的重要资源。
当前挑战
构建该数据集所面临的挑战主要源于数据源的复杂性和非洲地区的特殊性。首先,死产率的准确估算依赖于完善的出生登记和死产报告系统,然而许多非洲国家因医疗设施不足、登记制度不健全,导致数据缺失或统计口径不一,使得从WHO原始API中获取的统一数据可能隐含报告偏倚。其次,数据集中包含性别(SEX_BTSX)等分层维度,当同一国家同一年的数据按不同特征拆分时,如何合理聚合或筛选以保持样本独立性和模型可解释性成为技术难点。此外,部分国家的观测年份不连续,且置信区间字段并非全部可用,这给时间序列分析和不确定性量化带来了额外挑战。最后,作为跨机构整合的数据集,维持与WHO原数据版本的一致性并确保许可合规,也是持续维护中必须应对的问题。
常用场景
经典使用场景
在非洲区域公共卫生研究中,死产率作为衡量围产期保健质量的核心指标,该数据集为流行病学建模与时间序列分析提供了标准化、跨国的结构化数据。研究者可基于47个非洲国家跨越2000年至2023年的年度观测值,构建纵向趋势分析模型,揭示死产率在区域内的时空演变规律。数据集既可作为回归任务中的连续型目标变量,亦可通过设定阈值转换为分类标签,用于探究高负担国家与低负担国家的差异化特征。其内置的置信区间字段进一步赋予稳健性评估的可能,使模型能够融合不确定性信息,提升预测的可信度。
实际应用
在实际公共卫生决策中,该数据集成为各国卫生部门与国际组织(如WHO、UNICEF)开展死产负担监测和资源调配的量化工具。数据分析人员可利用其时间序列特性,构建预警系统以识别死产率异常波动的国家或年份,辅助早期干预策略的制定。非政府组织可基于区域基准值评估援建项目(如产前护理培训、急诊产科设施升级)的实际收效,实现项目影响的量化归因。此外,数据兼容主流机器学习框架的特性,使得非洲本土研究团队能够低成本地构建预测模型,应用于健康资源分配优化与脆弱人群识别等场景。
衍生相关工作
基于该数据集的标准化结构,已衍生出数项具有深远影响力的研究范式与工具。其中,最为瞩目的是将死产率数据与地理空间分析相融合,非洲各国死产负担的热点区域被精确定位,驱动了孕产保健服务可及性研究的新方向。同时,该数据集被整合入多指标健康预测模型,用于评估传染病与非传染性疾病对围产期结局的复合影响,拓展了传统死产归因分析的边界。此外,数据清洗与再整理的工作流程本身也催生了一套面向低频更新健康指标的自动化Pipeline,被后续非洲健康数据项目所采纳,显著降低了数据复用的门槛。
以上内容由遇见数据集搜集并总结生成



