electricsheepafrica/africa-who-number-of-deaths-among-children-ages-5-to-9-years
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-deaths-among-children-ages-5-to-9-years
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标5至9岁儿童死亡人数(CM_04)在非洲国家的国家级观测数据,时间跨度为1990年至2023年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自世界卫生组织全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of deaths among children ages 5 to 9 years" (`CM_04`) across African nations, spanning 1990–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区5至9岁儿童死亡人数这一关键健康指标(代码CM_04)。数据以统一架构的Parquet文件形式重新打包,提取自API响应中的浮点精度字段NumericValue,并保留了置信区间边界值(value_low、value_high),为机器学习任务提供了可直接使用的清洁数据源。数据集覆盖1990年至2023年间47个非洲国家的4,794条观测记录,每条记录对应特定国家、年份及其可能的性别或居住地类型等分层维度组合,确保了跨时间与地域的细粒度分析能力。
特点
此数据集的核心特色在于其结构化的分层设计,通过dim1和dim2字段存储按性别(如SEX_BTSX、SEX_FMLE)或居住地类型等划分的子维度,允许用户灵活筛选或聚合特定群体。所有数值均采用浮点格式而非显示字符串,配合置信区间信息,使数据可直接用于回归或分类建模。此外,数据集遵循CC BY 4.0许可协议,来源可靠,且经过Electric Sheep Africa项目统一整理,成为非洲健康数据生态中一个兼具规模与精度的分析资源。
使用方法
通过HuggingFace datasets库即可加载该数据集,调用load_dataset函数后,可将训练集转换为Pandas DataFrame进行后续操作。研究者可按dim1字段过滤出全国性数据(如筛选以_BTSX结尾的条目),或基于country_iso3列提取特定国家的时间序列。对于包含置信区间的观测,可利用value_low和value_high进行不确定性量化。若需跨维度聚合,可依据dim1与dim2的类别分组计算均值或总和,适应多层次统计建模需求。
背景与挑战
背景概述
在全球公共卫生领域,儿童死亡率是衡量国家健康水平与社会发展的核心指标之一。世界卫生组织(WHO)全球卫生观察站(GHO)长期追踪各类儿童健康数据,其中5至9岁年龄段的死亡人数反映了基础医疗覆盖、传染病防控及营养干预等关键领域的成效。该数据集由Electric Sheep Africa团队整理,基于WHO官方OData API构建,覆盖1990至2023年间47个非洲国家的观察记录,共计4794条数据。其核心研究问题在于提供统一、机器学习就绪的非洲儿童死亡率结构化数据,以支持死亡趋势分析、区域对比及干预策略建模。该数据集以CC BY 4.0许可发布,已集成至HuggingFace平台,为公共卫生研究者、数据科学家和政策制定者提供了高质量、可复现的数据基础,对理解非洲儿童健康不平等现象及推动循证决策具有重要价值。
当前挑战
该数据集所解决的领域问题面临多重挑战。首先是非洲地区儿童死亡率数据的稀疏性与异质性:不同国家统计口径不一,部分年份数据缺失,且WHO官方接口返回的数值包含置信区间与显示字符串,需精细清洗以确保数值精度。其次,数据集按国家、年份及性别等维度进行分层,意味着每个指标可能产生多条记录,如何聚合为一致的时间序列并平衡细粒度与可分析性成为关键。在构建过程中,挑战体现在API数据实时更新与历史版本一致性维护上,同时需要处理非洲47国中部分国家数据长期未采集的问题,并确保跨年、跨国的死亡率估计具有可比性。此外,置信区间字段的缺失比例较高,如何在机器学习建模中合理处理不确定性也构成一项技术难点。
常用场景
经典使用场景
该数据集记录了1990年至2023年间非洲47个国家5至9岁儿童死亡人数的年度统计信息,涵盖了性别、地区等细分维度。在经典使用场景中,研究者常将其作为时间序列分析的基准数据,用于建模和预测儿童死亡率的变化趋势,或结合社会经济、医疗资源等特征进行多因素回归分析。其结构化的表格格式适用于分类与回归任务,支持基于国家、年份或性别的数据筛选与聚合,为公共卫生领域的定量研究提供了标准化且易于机器学习处理的数据基础。
实际应用
在实际应用中,国际卫生组织与各国疾控部门可利用该数据集动态监测儿童生存状况的年度变化,辅助资源分配与政策制定。例如,结合疫苗接种覆盖率或疟疾防控项目时间点,评估特定干预对5至9岁儿童死亡率的实际影响。数据科学团队可将其集成至自动化仪表盘,实时追踪非洲各国的健康目标进展。此外,非政府组织可通过分析年龄-性别分层数据,针对性设计社区健康项目,优化有限医疗资源在城乡与不同性别人群间的投放效率。
衍生相关工作
以此数据集为基础,学界已衍生出多项标志性研究工作。例如,有团队利用其时间序列特征构建贝叶斯层级模型,对数据稀疏的国家进行死亡率插值与预测;也有研究者将其与WHO其他指标(如营养不良率、免疫覆盖率)结合,运用因果推断方法探索儿童生存的决定因素。此外,该数据集被整合至African Health Observatory平台,支撑了多篇关于撒哈拉以南非洲儿童死亡率不平等性趋势的分析报告。这些工作不仅验证了数据集的可用性,更拓展了其在政策评估与健康公平研究中的应用深度。
以上内容由遇见数据集搜集并总结生成



