five

electricsheepafrica/africa-who-number-of-neonatal-deaths

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-neonatal-deaths
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1955年至2023年世界卫生组织全球健康观察站指标“新生儿死亡人数”(CM_03)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Number of neonatal deaths" (`CM_03`) across African nations, spanning 1955–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区新生儿死亡人数这一关键健康指标(指标代码CM_03)。数据以Parquet格式重新封装,采用统一的数据模式,所有数值均提取自原始数据中的浮点精度字段(NumericValue),而非显示字符串。覆盖1955年至2023年间47个非洲国家的2,414条观测记录,区域限定为WHO AFRO区域。对于存在分层维度的指标(如性别),每个国家、年份与维度的唯一组合生成独立行,用户可通过dim1/dim2字段筛选或跨层聚合。置信区间上下界(value_low、value_high)也在可用时纳入。
特点
数据集具备高度结构化与机器学习的友好特性,以国家-年份为基本分析单元,提供浮点数精度的新生儿死亡人数点估计值,并附带置信区间,便于不确定性建模。分层维度设计允许用户按性别(如SEX_BTSX)或居住地类型等亚组进行精细分析。47个非洲国家的长期时间序列(1955–2023年)为趋势分析、面板数据建模提供了坚实支撑。数据来源权威(WHO官方),许可证为CC BY 4.0,确保开放可复用地支持非洲健康研究。
使用方法
用户可通过HuggingFace Datasets库直接加载数据集,使用load_dataset函数获取训练集,并便捷地转换为Pandas DataFrame进行后续操作。典型用法包括:通过筛选dim1字段中以 '_BTSX' 结尾或为空的行,提取全国层面且不分性别的数据;或基于country_iso3列按国家过滤,并结合year排序构建单国时间序列。数据集的列式结构简洁明了,主要预测目标为value_numeric,辅以value_low/value_high用于区间估计,适用于回归或分类任务。
背景与挑战
背景概述
新生儿死亡率是衡量一个国家妇幼健康水平与卫生系统效能的核心指标,直接关联联合国可持续发展目标(SDG)中关于消除可预防新生儿死亡的具体要求。由世界卫生组织(WHO)全球卫生观测站(GHO)发布、Electric Sheep Africa团队整理并托管于HuggingFace的“africa-who-number-of-neonatal-deaths”数据集,专注于非洲大陆47个国家自1955年至2023年间的新生儿死亡病例数统计。该数据集整合了官方编码CM_03的指标,以结构化Parquet格式呈现,并包含置信区间及性别等子维度信息,为非洲区域流行病学分析与机器学习建模提供了标准化的基础数据源。其发布标志着面向非洲公共卫生领域的开放数据资源迈入了更易用、更统一的新阶段。
当前挑战
该数据集所应对的领域挑战在于非洲新生儿死亡率高企背景下,多国跨年代数据的碎片化与异构性问题,使得进行大规模、可比性的区域灾害评估与预测模型构建面临严重数据壁垒。在构建过程中,团队需要从WHO GHO的OData API大量抓取原始记录,并将分散的展示性文本转化为统一的数值型字段,同时处理不同国家间报告标准不一致、缺失年份与置信区间的频发情况。此外,数据按性别、居住地等维度分层带来的多行冗余结构,需要在保持信息完整的前提下进行适当聚合与清洗,以满足机器学习任务对高效、可重复数据管线的严格要求。
常用场景
经典使用场景
在全球公共卫生领域,新生儿死亡人数是衡量妇幼健康水平与医疗体系效能的核心指标之一。来自世界卫生组织全球卫生观察站的非洲新生儿死亡人数数据集,汇集了1955年至2023年间47个非洲国家的观测数据,构成了一个结构化、时序完整的机器学习就绪资源。该数据集最经典的使用场景在于构建时间序列预测模型,借助历史死亡人数与置信区间信息,对各国未来的新生儿死亡趋势进行推演。研究者可将其作为回归任务的目标变量,结合区域、性别等分层维度,细致刻画不同亚群的健康演变轨迹,为理解非洲大陆新生儿生存状况的长期变迁提供数据根基。
实际应用
在现实世界中,该数据集的应用场景涵盖公共卫生决策支持、国际援助评估与医疗资源规划等多个维度。各国卫生部门与国际组织可基于这些历史数据,识别新生儿死亡率居高不下的特定区域与年份,从而制定差异化的干预方案。例如,通过分析死亡人数的置信区间波动,可以判断某项疫苗接种计划或产前护理推广政策的实际影响。此外,该数据集也可用于训练机器学习系统,辅助实时监测异常死亡高峰,为脆弱地区建立预警机制。在非政府组织的数据驱动项目里,它同样是量化项目成效、优化资源配置的可靠凭据。
衍生相关工作
基于这一权威数据源,学术界已衍生出一系列影响深远的研究工作。在预测建模方向,研究者常利用其构建长短期记忆网络或梯度提升回归模型,实现对新生儿死亡人数的多步预测,并探讨气候变量、粮食安全等协变量的引入对预测精度的提升效果。在区域比较分析中,该数据集被用于绘制非洲大陆的健康地理图谱,结合空间统计方法揭示国家间死亡负担的分布规律。此外,部分工作聚焦于数据缺失值的插补与置信区间校准,为提升后续分析的稳健性贡献了方法论创新。这些衍生研究不仅深化了对非洲新生儿健康动态的理解,也为同类健康指标数据的挖掘范式提供了参照。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务