electricsheepafrica/africa-who-neonatal-mortality-rate-nmr
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-neonatal-mortality-rate-nmr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“新生儿死亡率(每1000例活产中的死亡数)”在非洲国家的国家级观察数据,时间跨度为1993年至2019年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Neonatal mortality rate (deaths per 1000 live births)" (`nmr`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,专为非洲地区新生儿死亡率(每千例活产死亡数)这一关键健康指标而构建。数据集涵盖了1993年至2019年间41个非洲国家的5,399条观测记录,所有数值均采用浮点精度的NumericValue字段,而非显示字符串,同时附带了可用的置信区间上下界。数据以Parquet格式打包,并经过统一的模式规范整理,形成了机器学习就绪的高质量结构化数据。
使用方法
用户可通过HuggingFace Datasets库轻松加载该数据集,将其转换为Pandas DataFrame进行后续分析。推荐的做法是,通过筛选dim1字段中带有'_BTSX'后缀的条目或忽略缺失值,来获取国家层面的总体指标。亦可针对特定国家如肯尼亚(KEN)进行时间序列分析,只需通过country_iso3列过滤并按照年份排序,即可高效地探索新生儿死亡率的历史演变趋势。
背景与挑战
背景概述
新生儿死亡率是衡量一个国家或地区卫生健康水平的核心指标之一,直接反映了围产期保健、分娩干预及新生儿照护服务的可及性与质量。非洲作为全球新生儿死亡率最高的区域,长期面临数据碎片化、标准不统一及时间序列不完整等困境,严重制约了循证公共卫生决策与机器学习模型的落地应用。在此背景下,世界卫生组织(WHO)全球卫生观察站(GHO)于2019年构建了这一涵盖41个非洲国家、1993至2019年时间跨度的新生儿死亡率数据集。该数据集由Electric Sheep Africa团队通过OData API统一采集并重新打包,提供了包含置信区间及多种社会人口学分层维度(如性别、教育水平、财富分位、居住地类型)的结构化表格数据,旨在为区域健康差异分析、时间序列预测及政策评估提供高质量、标准化的数据基础。该数据集一经发布,即成为非洲健康数据统一仓库的重要组成部分,推动了低资源环境下数据驱动型医疗研究的发展。
当前挑战
该数据集致力于解决的核心领域问题在于:非洲新生儿死亡率长期存在监测盲区,缺乏机器学习可直接使用的、带有地理与时间层次特征的标准化结构化数据,导致现有模型难以准确建模区域内部多维因素(如贫富差距、城乡医疗资源分布)对新生儿生存率的影响。构建过程中面临多重挑战:一是原始WHO数据以显示字符串格式存储数值,需通过OData API的`NumericValue`字段提取浮点精度值才能确保模型输入质量;二是不同国家、年份与分层维度的组合(如年龄组、财富十等分)会产生大量稀疏行,需谨慎处理缺失值与置信区间边界;三是数据来源虽为WHO官方,但需跨系统对齐ISO国家编码、WHO区域代码及时间戳更新规则,以维护纵向数据的因果一致性。
常用场景
经典使用场景
在非洲区域健康监测与流行病学研究中,该数据集被广泛用于新生儿死亡率的时空建模与趋势分析。研究者能够基于1993至2019年间覆盖41个非洲国家的5,399条观测记录,构建混合效应模型或贝叶斯层次模型,以揭示新生儿死亡率随年份、国家及亚群变化的动态规律。数据集的细分维度——包括年龄组、教育水平、居住地类型、性别及财富五分位——为分层分析提供了丰富的协变量支持,从而精确刻画不同脆弱群体的健康差异,为政策干预的靶向性提供量化依据。
解决学术问题
该数据集精准回应了非洲新生儿健康领域长期面临的数据碎片化与跨国产出缺乏可比性这一核心学术困境。通过整合世界卫生组织全球健康观察站的标准化指标,它使研究者能够突破单国案例分析的局限,开展区域层面的比较研究,量化国家间及国家内部在社会经济地位、地域和性别维度上存在的不平等现象。此外,数据集附带的置信区间信息提供了估计的不确定性度量,从而支撑起更为稳健的统计推断,推动了关于新生儿死亡率影响因素的系统性因果探索。
实际应用
在实际应用中,该数据集为非洲各国卫生部的决策制定与联合国可持续发展目标的进展评估提供了关键基础输入。公共卫生机构可借助数据中的时间序列,评估现有母婴健康项目的实施效果,并识别出新生儿死亡率居高不下的热点地区或特定亚群,从而优化资源分配。同时,数据集经过机器学习友好化处理,便于集成至预测预警系统,支持对新生儿死亡率未来演变趋势的模拟推演,为提前制定干预策略、降低可预防的儿童死亡负担提供科学支撑。
数据集最近研究
最新研究方向
在非洲公共卫生与妇幼健康领域,新生儿死亡率作为衡量母婴保健体系质量与可持续发展目标进展的核心指标,正日益成为数据驱动干预策略的焦点。该数据集整合了世界卫生组织全球卫生观察站1993至2019年间41个非洲国家的新生儿死亡率官方统计,并细化了年龄组、教育水平、居住地类型、性别及财富五等分等分层维度,为机器学习模型提供了高粒度的训练基础。前沿研究方向集中于利用该时序与截面结合的数据开展非洲区域新生儿死亡率的预测预警、不平等性归因分析,以及针对特定亚群(如农村低财富五等分家庭)的干预效果模拟,从而助力联合国儿童生存目标的精准落地与政策优化。
以上内容由遇见数据集搜集并总结生成



