electricsheepafrica/africa-who-preterm-birth-rate
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-preterm-birth-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2010-2020年间世界卫生组织全球健康观察站(WHO GHO)关于早产率(每100例活产)(`PRETERMBIRTH_RATE`)的国家级观察数据。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)系列的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Preterm birth rate (per 100 live births)" (`PRETERMBIRTH_RATE`) across African nations, spanning 2010–2020. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区早产率(每100例活产)这一关键健康指标。研究者通过程序化接口直接获取原始数值型字段(NumericValue),而非显示字符串,确保了数据的精度与可靠性。数据经过系统化整理,以Parquet格式封装,并统一纳入Electric Sheep Africa项目框架,形成了一套具备一致结构、可供机器学习直接调用的非洲健康数据集。
特点
数据集覆盖2010年至2020年间17个非洲国家的年度观测值,共计187条记录,具有国家层面的纵向追踪能力。每条记录均包含点估计值及其置信区间上下界(若可用),为模型训练与统计分析提供了完整的误差度量。此外,数据集严格限定于WHO非洲区域(AFRO),无额外子维度拆分,使得每个国家-年份组合对应唯一观测,极大简化了数据解析与建模流程。
使用方法
用户可通过HuggingFace的datasets库以一行代码完成数据加载:`load_dataset("electricsheepafrica/africa-who-preterm-birth-rate")`。加载后,数据可直接转换为Pandas DataFrame进行后续分析。针对需要全性别或国家级别的应用场景,建议过滤`dim1`字段以选取以`_BTSX`结尾或为空的行。对特定国家的时间序列研究,则可依据`country_iso3`列进行筛选并按`year`排序,实现高效的数据切片与建模准备。
背景与挑战
背景概述
早产是全球新生儿死亡与长期健康问题的主要诱因,尤其在撒哈拉以南非洲地区,早产负担尤为沉重。世界卫生组织(WHO)全球卫生观察站(GHO)长期追踪各国早产率指标,为流行病学研究和政策制定提供核心依据。在此背景下,Electric Sheep Africa团队于2020年整合WHO GHO开放数据,构建了africa-who-preterm-birth-rate数据集,涵盖2010至2020年间17个非洲国家的早产率观测值(每100例活产中的早产数量),共187条记录。该数据集采用统一的Parquet格式与标准化字段架构,直接提取浮点型数值及置信区间,消除了原始数据中显示字符串的歧义,旨在为机器学习驱动的非洲区域母婴健康研究提供高质量、可直接使用的结构化数据,对推动精准干预与区域健康决策具有重要支撑作用。
当前挑战
在领域问题层面,非洲早产率研究长期面临数据稀疏与质量参差的挑战:多数国家缺乏连续年份的完整统计,且受限于卫生统计系统不完善,点估计值的可靠性难以评估。该数据集所解决的核心难题,是通过整合WHO官方标准化指标,提供跨国家、跨年份的一致可比性,并纳入置信区间字段以量化不确定性,从而提升建模与预测的科学性。在构建过程中,团队面临多重技术挑战:首先,需从WHO OData API中高效抽取并清洗大量异质数据,过滤出仅属于非洲区域的记录;其次,需处理缺失维度(如无子维度分层)与缺失置信区间的复杂情况,确保数据模式统一;最后,将原始显示字符串与数值型字段分离,避免下游任务因字段类型混杂而出现错误,这对数据管道设计提出了精细化的清洗与验证要求。
常用场景
经典使用场景
非洲地区的早产率是衡量母婴健康水平与医疗系统效能的核心指标之一。该数据集汇集了世卫组织全球卫生观察站(GHO)中17个非洲国家2010至2020年的早产率(每百例活产)官方统计,并以机器学习友好的Parquet格式提供。经典使用场景涉及构建基于国家、年份的早产率预测模型,例如通过时间序列回归分析非洲地区早产率的长期变化趋势,或利用分类方法识别早产率异常升高的国家与时期,为区域健康政策评估提供量化依据。
衍生相关工作
该数据集作为Electric Sheep Africa系列的核心组件,已衍生出多项交叉研究主题。在学术层面,它常与GHO中其他母婴健康指标数据集(如低出生体重发生率、新生儿死亡率)联合使用,构建非洲健康多维贫困指数。在工具开发方面,研究者基于其规范化的Schema设计了跨数据集联合查询接口,推动了非洲各国健康指标的对比基准测试。此外,该数据集启发了从时空图网络到时序Transformer在区域健康预测中的适配工作,成为评估模型在非洲场景下泛化能力的经典基准之一。
数据集最近研究
最新研究方向
在全球公共卫生领域,早产率作为衡量母婴健康水平与医疗系统质量的关键指标,正受到日益广泛的关注。该数据集聚焦于2010至2020年间非洲17个国家的早产率(每100例活产),为探索区域早产负担的时空演变规律提供了珍贵的结构化数据支撑。当前前沿研究正积极利用此类数据集,结合机器学习与统计建模方法,剖析社会经济、环境暴露及基础医疗可及性等因素与早产发生率之间的复杂关联,旨在识别高风险人群与地理热点。尤其在非洲大陆应对孕产妇及新生儿健康挑战的背景下,该数据集有助于推动以证据为基础的干预措施优化与资源配置,其意义在于填补了区域间长期、可比较的高质量数据缺口,为全球可持续发展目标中降低新生儿死亡率的具体实践提供了量化基础与建模输入。
以上内容由遇见数据集搜集并总结生成



