electricsheepafrica/africa-who-stunting-prevalence-among-children-under-5-years-of-age-nanthazne2
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-stunting-prevalence-among-children-under-5-years-of-age-nanthazne2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标5岁以下儿童发育迟缓的普遍性(身高年龄<-2 SD,基于调查的估计)(`NUTRITION_ANT_HAZ_NE2`)在非洲国家的国家级观测数据,时间跨度为1985年至2024年。数据集是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO GHO OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集覆盖47个非洲国家,总行数为28,882条。数据分层维度包括年龄组、教育水平、家庭财富、居住地区类型、性别、财富十分位数、财富五分位数和财富三分位数。每行代表一个国家×年份×维度的唯一组合。
This dataset contains country-level observations for the WHO GHO indicator Stunting prevalence among children under 5 years of age (% height-for-age <-2 SD), survey-based estimates (`NUTRITION_ANT_HAZ_NE2`) across African nations, spanning 1985–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 28,882 rows. Sub-dimensions include age group, education level, household wealth, residence area type, sex, wealth decile, wealth quintile, and wealth tercile. Each row represents a unique combination of country × year × dimension.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集来源于世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,聚焦于非洲地区五岁以下儿童发育迟缓患病率(以身高别年龄Z评分低于-2个标准差为界定标准)。数据经过系统化整理与重包装,以Parquet格式存储,并遵循统一的模式架构。所有数值均提取自API返回的浮点型字段(NumericValue),而非显示字符串,确保了数据精度。此外,数据集中还纳入了置信区间上下界(value_low与value_high),以提供更完整的统计估计。数据集覆盖47个非洲国家,时间跨度从1985年至2024年,共计28,882条观测记录,每条记录对应国家、年份与特定分层维度的唯一组合。
特点
该数据集的一大核心特点在于其丰富的分层结构,涵盖了年龄组、教育水平、家庭财富、居住区域类型、性别、财富十分位数、财富五分位数及财富三分位数等多个维度。当指标存在分层(如按性别或年龄组划分)时,数据会为每个国家、年份与维度的独特组合生成独立行,使得研究者能够依据具体分层属性(dim1、dim2)进行精细化筛选或跨层聚合。同时,数据集中还包含了WHO地区代码、指标代码、更新时间戳等元数据字段,为多维度分析与时间序列建模提供了坚实的数据基础。所有数据均遵循CC BY 4.0许可协议,确保了使用的开放性与合规性。
使用方法
使用者可通过HuggingFace Datasets库便捷加载该数据,执行`load_dataset("electricsheepafrica/africa-who-stunting-prevalence-among-children-under-5-years-of-age-nanthazne2")`即可获取训练集。数据加载后,可轻松转换为Pandas DataFrame进行进一步操作。若需提取仅包含两性综合数据的国家层面观测值,可依据dim1字段结尾是否包含'_BTSX'或该字段为空值进行筛选。对于特定国家的时间序列分析,例如肯尼亚,则可基于country_iso3字段过滤后按年份排序。该数据集既适用于表格分类任务,也适用于回归分析,为非洲儿童营养健康状况的机器学习研究提供了高质量、结构化的数据资源。
背景与挑战
背景概述
儿童发育迟缓是衡量全球公共卫生状况的核心指标之一,反映了长期营养不良与反复感染对儿童身高发育的累积效应。世界卫生组织(WHO)全球卫生观察站(GHO)自1985年起系统监测非洲地区五岁以下儿童的发育迟缓率,以身高别年龄Z评分低于-2个标准差(HAZ<-2)为判定标准。Electric Sheep Africa团队于2024年基于该数据源构建了结构化的机器学习就绪数据集,涵盖47个非洲国家、近三万条调查记录,并纳入年龄、性别、教育水平、家庭财富、居住地类型等多个亚维度分层信息。该数据集为非洲儿童营养状况的跨时空分析、政策评估以及预测建模提供了标准化、高质量的开放数据基础。
当前挑战
该数据集所应对的领域挑战在于儿童发育迟缓受到社会经济、粮食安全、医疗卫生及教育等多因素交织影响,传统调查数据往往难以支撑复杂的因果推断与跨尺度预测建模。在构建过程中,面临的核心挑战包括:数据来源分散,各调查项目的抽样设计、时间跨度和定义标准存在差异,需统一标准化处理;来自WHO API的原始数据包含大量缺失值与置信区间信息,需审慎处理以保证建模稳健性;多维分层(如年龄组、财富五分位等)导致数据稀疏性显著增加,在细粒度群体估计中易引发样本量不足及统计偏差问题。
常用场景
经典使用场景
该数据集以世界卫生组织全球卫生观察站权威数据为源头,聚焦非洲47国五岁以下儿童发育迟缓发生率,提供了1985至2024年间长达四十年的时空观测序列。其核心价值在于支持分类与回归两种学习范式:研究者可通过国家、年份、性别、居住地类型、教育水平、家庭财富等级等多维分层变量,对儿童营养状况进行精细化的纵向趋势建模与横截面比较。数据集中包含的置信区间字段,也为不确定性量化与稳健性评估提供了基础,使其成为非洲儿童公共健康领域机器学习模型训练的经典基准资源。
衍生相关工作
该数据集衍生出一系列极具影响力的相关研究工作。在因果推断领域,学者结合夜光遥感或气候数据与发育迟缓变化率,构建准实验设计以评估经济增长对营养改善的因果效应。在时空预测方面,多种深度学习方法被用于挖掘该序列中的潜在模式,开发出面向非洲大陆的发育迟缓早期预警系统。此外,该数据还被集成到多指标聚类调查的综合数据库中,催生了健康不平等分解模型、儿童早期发展风险分级工具等衍生成果,形成了一个以非洲儿童营养为核心的相关工作生态体系。
数据集最近研究
最新研究方向
该数据集聚焦于非洲五岁以下儿童发育迟缓率(基于身高-年龄Z评分低于-2个标准差)的监测与预测,通过整合世界卫生组织全球卫生观察站自1985年至2024年间覆盖47个非洲国家的调查数据,为儿童营养状况的时空演变分析提供了关键支撑。在精准公共卫生与可持续发展目标(SDG 2.2)的前沿领域中,这一资源正被用于构建机器学习模型,以识别高负担区域并探索社会经济、地理与人口分层(如财富五分位、居住区域类型、教育水平)的深层关联。结合近期非洲大陆粮食安全挑战与气候变化事件,该数据集有助于揭示发育迟缓的多维驱动因素,推动基于证据的干预策略优化,并为实现儿童健康公平提供数据驱动的决策基础。
以上内容由遇见数据集搜集并总结生成



