electricsheepafrica/africa-who-stunting-numbers-among-children-under-5-years-of-age
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-stunting-numbers-among-children-under-5-years-of-age
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标5岁以下儿童发育迟缓数量(百万计),基于模型的估计(NUTSTUNTINGNUM)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Stunting numbers among children under 5 years of age (millions), model-based estimates (NUTSTUNTINGNUM) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区5岁以下儿童发育迟缓人数(百万计)的模型估算指标(NUTSTUNTINGNUM)。数据以Parquet格式重新封装,确保架构一致性,并保留了浮点精度的数值字段及置信区间边界。覆盖2000至2024年间47个非洲国家的3525条观测记录,每行代表国家、年份及可能的分层维度(如性别)的唯一组合,通过一致的数据模式支持机器学习就绪的存储与调用。
特点
该数据集的核心特色在于其分维度结构,支持按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等亚组进行精细筛选或聚合,为多角度分析提供灵活入口。包含点估计值、上下置信区间及其格式化显示字符串,便于不确定性量化。数据来自权威WHO来源且遵循CC BY 4.0许可,覆盖全部非洲区域,时间跨度长达25年,为时空趋势、健康不平等及干预效果评估研究提供了丰富且可靠的跨国产出。
使用方法
通过HuggingFace的datasets库可直接加载数据集:`load_dataset("electricsheepafrica/africa-who-stunting-numbers-among-children-under-5-years-of-age")`,返回的DataFrame包含indicator_code、country_iso3、year等关键列。典型应用包括:过滤出两性(Both-sexes)和全国水平的数据,或按国家代码提取时间序列(如`df[df["country_iso3"]=="KEN"].sort_values("year")`),直接用于回归、分类或时序分析任务。
背景与挑战
背景概述
儿童发育迟缓是全球公共卫生领域长期关注的重大问题,尤其在撒哈拉以南非洲地区,其高发病率不仅威胁个体健康,更成为社会经济发展的结构性障碍。世界卫生组织全球卫生观察站(WHO GHO)自2000年起系统监测五岁以下儿童发育迟缓人数,但数据常以非结构化格式分散于官方报告,难以直接用于机器学习建模。为此,Electric Sheep Africa团队于2024年从WHO GHO的OData API中整合了覆盖47个非洲国家、时间跨度从2000年至2024年的模型估计值,构建了包含3525条观测记录的标准化数据集。该数据集以机器可读的Parquet格式发布,提供了点估计值及其置信区间,并保留了按性别划分的子维度,旨在弥合全球健康数据库与数据科学应用之间的鸿沟,推动非洲公共卫生领域的预测建模与政策评估研究。
当前挑战
该数据集所解决的领域核心问题在于,非洲地区五岁以下儿童发育迟缓的人数估计长期依赖区域聚合数据或零散的调查结果,缺乏统一、可操作的机器学习输入,使得时空趋势分析、风险预测及干预效果评估难以量化。在构建过程中,首要挑战是跨年数据的一致性与连续性——WHO的模型估计方法随时间演进,不同版本的指标必须经过严格对齐以避免断裂;其次,分层维度(如性别、区域)的编码冗余(如“SEX_BTSX”)与缺失值并存,需设计稳健的过滤逻辑以提取纯国家层面的时间序列;此外,置信区间的稀疏性也制约了不确定性的完整传播,为后续概率建模带来局限。
常用场景
经典使用场景
在非洲儿童营养健康研究领域,该数据集被广泛应用于评估五岁以下儿童发育迟缓人数的时空演变规律。研究者可借助其涵盖47个非洲国家、跨越2000至2024年的时序观测数据,结合性别或城乡等亚维度分层信息,构建预测模型或分类任务,从而揭示区域间及亚群间的营养不平等状况。数据集提供的点估计值与置信区间,为精准量化发育迟缓负担提供了可靠基础,使其成为追踪非洲儿童营养改善进程的经典资源。
实际应用
在实际应用中,该数据集助力非洲各国政府与国际组织(如WHO、UNICEF)精准识别营养干预的重点区域与脆弱人群。基于模型估计的发育迟缓人数,决策者可优化粮食安全计划、营养补充项目及公共卫生资源的配置。此外,数据集的机器学习友好格式(Parquet文件与统一模式)便于快速集成至预警系统,用于模拟不同政策情景下的营养改善效果,从而提升非洲儿童健康项目的科学性与及时性。
衍生相关工作
围绕该数据集,衍生了一系列具有影响力的学术探索。一方面,研究者基于其跨年际与跨国家的面板结构,构建了发育迟缓的贝叶斯时空模型或深度学习预测框架,以推断缺失年份或未观测地区的营养状况。另一方面,该数据集常与气候、经济或教育等辅助数据结合,形成多源融合分析,揭示干旱、冲突或贫困对儿童生长的交互效应。其分层维度(如性别、城乡)的丰富性也催生了专门针对边缘化亚群的健康公平性研究,推动了非洲儿童营养领域的计量方法创新。
以上内容由遇见数据集搜集并总结生成



