electricsheepafrica/africa-who-distribution-of-causes-of-death-among-children-aged-5-years
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-distribution-of-causes-of-death-among-children-aged-5-years
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标5岁以下儿童死亡原因分布(%)(MORT_300)在非洲国家的国家级观察数据,时间跨度为2000年至2017年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator Distribution of causes of death among children aged < 5 years (%) (MORT_300) across African nations, spanning 2000–2017. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦非洲地区5岁以下儿童死亡原因分布(指标代码MORT_300)。数据经过系统性清洗与整合,采用统一的Parquet文件格式存储,并保持一致的字段架构。所有数值均直接提取自API返回的浮点精度字段NumericValue,而非展示字符串。此外,数据集还囊括了置信区间上下界(value_low、value_high)等辅助信息,以增强统计分析的完整性。Electric Sheep Africa项目将其重新封装为机器学习友好的格式,提供47个非洲国家在2000至2017年间的观测记录,总计35,532条数据。
特点
该数据集具有多维分层结构,涵盖年龄组(新生儿、婴儿、幼儿)、性别及居住地类型等亚变量,每种分层组合均以独立行记录。数据字段设计兼顾研究与建模需求,包括国家ISO代码、WHO区域、年份、点估计值、置信区间及维度标签。特别适用于时间序列分析、跨国家比较及儿童健康预后建模。所有数据遵循CC BY 4.0许可协议,来源权威可靠,且已预过滤为WHO非洲区域(AFR)数据,方便区域聚焦研究。
使用方法
用户可通过Hugging Face Datasets库便捷加载该数据集,调用load_dataset函数即可获取训练集格式的表格数据,并支持直接转换为Pandas DataFrame进行后续分析。推荐在探索时先按dim1字段筛选出全国性数据(如性别为两性),再针对特定国家进行时间序列切片。数据集可直接用于表格分类或回归任务,也可通过分层过滤进行亚组分析,为理解非洲儿童死亡原因分布提供坚实的数据基础。
背景与挑战
背景概述
非洲地区五岁以下儿童死亡率长期居高不下,是全球公共卫生领域的核心关切之一。世界卫生组织(WHO)全球卫生观察站(GHO)自2000年起系统监测该人群的死因分布,并于2017年由Electric Sheep Africa团队整合为统一、机器学习就绪的数据集。该数据集涵盖47个非洲国家、2000至2017年的观测记录,聚焦于MORT_300指标,即五岁以下儿童各死因占比。其发布为深入剖析非洲儿童健康差异、评估干预措施成效提供了标准化、跨国的定量基础,有力推动了数据驱动的区域健康政策研究与全球儿童生存目标的实现。
当前挑战
该数据集所应对的核心领域挑战在于,非洲地区儿童死因数据长期零散、标准不一,难以支撑精准的疾病负担分析与资源调配。具体挑战包括:1)数据来源多样且质量参差不齐,需整合WHO官方API接口并重构为统一Parquet格式,清洗非数值字段;2)死因分类涉及年龄、性别、居住地等多维分层变量(如AGEGROUP_DAYS0-27等),需确保每行记录唯一对应国家、年份与分层的组合,避免聚合偏误;3)部分观测值缺乏置信区间,对模型不确定性评估构成限制;4)数据集时间跨度(2000–2017年)覆盖全球健康目标进展期,但2017年后数据缺失,需谨慎外推。
常用场景
经典使用场景
在全球儿童生存与健康监测领域,五岁以下儿童死因分布是评估公共卫生干预成效的核心指标。该数据集整合了世界卫生组织全球卫生观察站提供的非洲47国2000至2017年间儿童死亡原因构成数据,涵盖新生儿期、婴儿期及学龄前期三个关键年龄亚组,并以百分比形式呈现。研究者可借此开展时空序列分析、死因谱变迁追踪以及跨国家分层比较,亦可结合人口学协变量构建混合效应模型,探索疾病模式转变与卫生政策之间的深层关联。
衍生相关工作
该数据集的发布推动了一系列后续研究的涌现。基于MORT_300的时序剖面,有研究构建了贝叶斯层次时空模型以估算缺失年份的死因构成,形成了非洲区域儿童死亡率的精细化地图。另有工作联合气候与营养调查数据开展多源融合分析,验证了干旱与腹泻致死率之间的协同演化关系。此外,利用此数据集训练的可解释机器学习分类器,已成为非洲流行病学建模教程中的基准案例,广泛用于残差分析与预测不确定性评估的教学实践。
数据集最近研究
最新研究方向
在全球公共卫生领域,儿童死亡率一直是衡量医疗体系效能与社会发展水平的关键指标。基于世界卫生组织全球卫生观察站提供的非洲地区5岁以下儿童死亡原因分布数据(MORT_300),该数据集覆盖47个非洲国家长达17年的观测记录,为剖析区域性疾病负担演变提供了弥足珍贵的时序证据。前沿研究正聚焦于借助机器学习与时空建模技术,从该数据集中挖掘儿童死亡的主要驱动因子,特别是那些与可预防疾病、营养不良及医疗可及性密切相关的模式。结合近年来非洲大陆在应对疟疾、肺炎和腹泻等主要杀手方面取得的进展与挑战,这一数据集不仅推动了针对脆弱人群的干预策略优化,还深刻影响着全球健康政策对资源分配优先级的再思考,其标准化、可复用的格式更成为连接公共卫生实证与人工智能建模的桥梁。
以上内容由遇见数据集搜集并总结生成



