electricsheepafrica/africa-who-preterm-birth
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-preterm-birth
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标早产(数量)(PRETERMBIRTH_NUMBER)在非洲国家的国家级别观察数据,时间跨度为2010年至2020年。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator Preterm birth (number) (PRETERMBIRTH_NUMBER) across African nations, spanning 2010–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在全球公共卫生领域,早产是导致新生儿死亡与长期健康问题的重要诱因,而非洲大陆因医疗资源分布不均,其早产数据的系统化整理对区域健康干预具有关键意义。该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家早产儿数量的指标代码‘PRETERMBIRTH_NUMBER’。数据经过精心抽取与重构,以Parquet格式保存,并采用统一的模式(Schema)确保机器学习就绪性。所有数值均取自浮点精度的‘NumericValue’字段,而非显示字符串;同时,在可用的情况下,还包含了置信区间上下限(value_low, value_high),从而为后续的统计分析提供了更丰富的信息基础。
特点
本数据集覆盖了2010年至2020年间17个非洲国家的观察记录,总计187行数据,所有条目均源自WHO AFRO区域(ParentLocationCode='AFR')。其核心特点在于数据结构的简洁性与一致性:每个国家-年份组合对应一个单一数值,无额外子维度分层,避免了因性别或年龄群组细分带来的复杂性。此外,数据集中包含了多项关键字段,如点估计值(value_numeric)作为主要机器学习目标、置信区间界限以及格式化显示字符串,为研究人员提供了直观且精确的数值参考,便于开展跨国家的时间序列分析与预测建模。
使用方法
在应用层面,该数据集可通过HuggingFace的datasets库便捷加载,使用‘load_dataset’函数一键获取,并可直接转换为Pandas DataFrame进行后续分析。用户可借助‘dim1’和‘dim2’字段进行子群体筛选,例如通过过滤以‘_BTSX’结尾的维度值来聚焦‘两性’全国级别数据,或利用‘country_iso3’列按国家名称提取特定国家的时间序列。数据集的这种设计使得它非常适合用于构建回归或分类模型,以预测早产儿数量趋势,或作为非洲地区健康指标分析的教学与科研素材。
背景与挑战
背景概述
早产是全球新生儿死亡与长期健康障碍的主要诱因之一,尤其在非洲地区,公共卫生系统面临资源匮乏与数据不均衡的严峻挑战。世界卫生组织全球卫生观察站(WHO GHO)长期监测成员国早产负担,然而原始数据分散、格式各异,难以直接服务于机器学习建模。为此,Electric Sheep Africa团队于2023年前后整合了WHO GHO中非洲17国2010至2020年的早产数量指标(PRETERMBIRTH_NUMBER),构建了首个面向机器学习、统一Schema的非洲早产数据集。该数据集以Parquet格式发布,涵盖了点估计值及置信区间,为跨国家、跨时序的早产负担预测、资源分配优化及流行病学分析提供了标准化、可复现的数据基础。其发布填补了非洲健康领域高质量表格数据集的缺口,推动了数据驱动决策在区域公共卫生中的应用。
当前挑战
该数据集所聚焦的早产负担预测属于公共卫生监测中的回归与分类问题,核心挑战在于非洲地区各国卫生数据采集标准不一、报告覆盖率低,导致样本量仅187条,涵盖国家数有限,难以训练泛化能力强的模型。此外,数据中置信区间缺失与分层维度(如性别、城乡)稀疏分布,增加了特征工程与缺失值处理的难度。构建过程中,团队面临从WHO OData API提取海量异构指标的清洗与对齐任务,需剔除显示字符串噪音、保留浮点精度,并保证跨年份指标命名与计量单位的统一。同时,数据来源许可(CC BY 4.0)要求严格归属与合规发布,进一步增加了数据整合的工程成本与法律审查工作。
常用场景
经典使用场景
该数据集浓缩了2010至2020年间非洲17个国家的早产儿数量官方统计数据,为流行病学与公共卫生领域提供了弥足珍贵的量化基础。其经典用途在于纵向时间序列分析与国家间横向比较,研究者可借此追踪早产负担的动态演变规律,揭示不同国家在妇幼保健体系效能上的悬殊差异。同时,数据集中包含的置信区间字段为统计建模提供了不确定性的量化边界,使预测与推断更加严谨可信。
解决学术问题
该数据集的核心贡献在于填补了非洲地区早产负担系统化数据的长期空白,使学术界得以突破以往依赖局部抽样或跨区域估算的研究困境。它直接服务于全球疾病负担研究中早产相关死亡率的精准测算,并促进了多国妇幼健康政策评估的标准化。通过量化早产发生率与国家卫生系统能力之间的潜在关联,数据推动了以证据为驱动的资源分配策略优化,为降低新生儿死亡率、实现可持续发展目标提供了坚实的数据支撑。
衍生相关工作
该数据集衍生了一系列具有影响力的学术工作,包括利用贝叶斯时空模型对非洲早产负担进行去偏估计,以及结合社会经济发展指标的多变量回归分析以探究早产风险的驱动因子。此外,以该数据为基准,研究者构建了面向妇幼健康的预测性分类器,评估国家卫生政策覆盖面与早产结局间的因果效应。这些工作不仅深化了对早产流行病学的认知,也为后续整合气候、营养等多源数据开展交叉研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



