five

electricsheepafrica/africa-who-neonatal-mortality-rate-osis000003

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-neonatal-mortality-rate-osis000003
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标新生儿死亡率(每1000例活产)(WHOSIS_000003)在非洲国家的国家级观察数据,时间跨度为1954年至2023年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了47个非洲国家,总共有2,468行数据。

This dataset contains country-level observations for the WHO GHO indicator Neonatal mortality rate (per 1000 live births) (WHOSIS_000003) across African nations, spanning 1954–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 2,468 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区新生儿死亡率(每千活产)这一关键健康指标。数据经过系统化抽取与重组,以Parquet格式存储并遵循统一的数据模式。所有数值均取自高精度的浮点型字段NumericValue,而非展示字符串,并附带了置信区间上下限(value_low与value_high)。数据集覆盖1954至2023年间47个非洲国家的2,468条观测记录,其构建过程确保了数据的一致性与机器学习就绪性,为深入分析非洲区域的新生儿健康趋势奠定了坚实基础。
特点
该数据集的核心特点在于其结构化与多维度的视角。它提供了按国家、年份和细分维度(如性别)分层的新生儿死亡率精确估计值,每个国家-年份-维度的组合构成独立观测行。除点估计外,数据还囊括置信区间,增强了统计严谨性。模式中包含指示代码、ISO国家代码、WHO区域标识、年份、数值及维度描述等字段,并记录了数据更新时间。这种设计使得研究人员能够灵活地过滤特定国家的时间序列或跨性别聚合数据,从而满足多样化的分析需求。
使用方法
该数据集专为机器学习和统计分析优化,可通过HuggingFace的datasets库直接加载。用户只需一行代码`load_dataset`即可将数据转换为Pandas DataFrame,进而开展后续处理。例如,可按维度字段筛选出仅含两性(_BTSX)或全国层面的数据,或通过国家ISO代码提取特定国家(如肯尼亚)的时间序列并排序。这种便捷的接口设计使得研究人员能够快速聚焦于特定子集,进行回归、分类或趋势建模,极大简化了从原始数据到洞察的转化流程。
背景与挑战
背景概述
新生儿死亡率作为衡量公共卫生体系效能与母婴健康水平的核心指标,一直是全球健康研究关注的焦点。世界卫生组织(WHO)通过其全球卫生观测站(GHO)长期系统地收集各国新生儿死亡数据,旨在为政策制定和干预措施提供科学依据。该数据集由Electric Sheep Africa团队于2023年整理并发布,集中呈现了1954至2023年间47个非洲国家的新生儿死亡率(每千活产)观测值,总计2468条记录。研究核心在于将离散的官方统计数据转化为结构化、易于机器学习的格式,从而赋能区域健康风险预测、不平等性分析及干预效果评估。凭借CC BY 4.0许可的开放性,该数据集已成为非洲公共卫生领域数据驱动研究的重要基石。
当前挑战
该数据集所面临的挑战主要源于领域问题的复杂性与构建过程的特殊性。在领域层面,非洲大陆内部医疗卫生资源分布极不均衡,新生儿死亡率不仅受限于基础医疗条件,更与冲突、饥荒及社会经济波动交织,使得单纯依赖历史数据进行预测易产生显著偏差。此外,各国统计标准与报告时效性参差不齐,数据缺失和置信区间宽泛成为建模中的常见困境。在构建过程中,从WHO OData API抽取数据时需应对频繁的接口变更与字段歧义,例如将字符串型显示值准确转换为浮点数型数值,同时保留置信区间信息;此外,43个国家跨越近七十年的多维度分层(如性别、城乡)数据需统一模式整合,确保时间序列的连续性与群体间可比性,这对清洗与标准化工作提出了极高要求。
常用场景
经典使用场景
在非洲公共卫生与流行病学领域,新生儿死亡率(每千活产)是衡量母婴健康水平与卫生系统效能的核心指标。该数据集汇集了47个非洲国家自1954年至2023年间的新生儿死亡率官方统计数据,经过标准化清洗与格式统一,可直接用于机器学习模型训练与统计推断。研究者可基于此数据开展跨国别、跨年代的新生儿健康趋势分析,构建回归模型预测死亡率演变轨迹,或利用分类任务识别高风险区域与脆弱人群,为政策制定与资源分配提供量化支撑。
衍生相关工作
该数据集已衍生出多项标杆性研究范式:其一,基于随机森林与XGBoost的新生儿死亡率预测框架,被非洲卫生计量网络采纳用于年度风险评估;其二,结合卫星遥感与夜间灯光数据,部分团队构建了多层地理加权回归模型,量化城镇化进程对新生儿健康的非线性效应;其三,Transformer时序建模被引入后,成功捕捉了埃博拉与新冠疫情对脆弱国家新生儿健康的冲击波。此外,该数据集还催生了若干开源工具包,如AfriHealthML,实现了数据流水线与可解释性模块的标准化封装。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区新生儿死亡率(每千活产)的动态追踪与机器学习分析,覆盖1954至2023年间47个非洲国家的时序观测值,为全球健康不平等与可持续发展目标(SDG 3.2)的量化评估提供了关键数据支撑。当前前沿研究正转向利用此类结构化健康指标构建预测模型,结合气候、经济与医疗资源分布等多维变量,揭示新生儿生存风险的深层驱动因素。例如,通过深度融合WHO全球卫生观测站数据与非洲本土流行病学记录,学者们致力于开发区域化风险预警系统,以应对早产、感染及围产期护理不足等持续挑战。该数据集的机器就绪格式(Parquet)与元数据标准化设计,大幅降低了数据清洗门槛,推动了跨国家、跨时间维度的比较研究,为政策制定者评估干预措施成效、优化新生儿健康资源配置提供了实证基石。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务