electricsheepafrica/africa-who-stunting-prevalence-among-children-under-5-years-of-age-untingprev
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-stunting-prevalence-among-children-under-5-years-of-age-untingprev
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(GHO)指标“5岁以下儿童发育迟缓患病率(身高别年龄<-2 SD,基于模型的估计)”(NUTSTUNTINGPREV)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察站OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Stunting prevalence among children under 5 years of age (% height-for-age <-2 SD), model-based estimates" (`NUTSTUNTINGPREV`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的公开数据,聚焦于非洲地区5岁以下儿童发育迟缓患病率的模型估算值。数据通过OData API直接获取,并经由Electric Sheep Africa项目重新整理为统一的Parquet格式文件,确保其具备机器学习就绪的特性。所有数值均来源于浮点精度的原始字段,而非格式化显示字符串,同时尽可能保留了置信区间上下界等统计信息。数据集涵盖2000至2024年间47个非洲国家的3525条观测记录,每条记录均包含国家代码、年份、点估计值及其相关元数据,并通过维度字段(如性别)实现多层次的分类聚合。
特点
本数据集的核心优势在于其结构化与多维度的设计。每个观测值均附有完整的置信区间,为后续的统计推断与不确定性分析提供了坚实基础。数据覆盖了WHO非洲区域47个国家长达25年的时间序列,可有效支持跨国家、跨时段的比较研究。此外,数据集中还包含了按性别等维度进行的分层信息,研究者能够灵活筛选出全国总体估计或特定亚群的分析样本,从而满足不同研究粒度下的需求。数据来源的权威性与标准化处理流程也保证了其在公共卫生与机器学习领域的可靠应用。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,并将其转换为Pandas DataFrame进行后续处理。典型的使用策略包括:依据性别维度筛选出‘两性合计’的全国层面数据进行总体分析;或按国家代码进行分组,构建特定国家(如肯尼亚)的发育迟缓患病率时间序列。由于数据以国家-年份为基本观测单元,研究者可直接将其作为回归或分类任务的输入特征,同时利用置信区间作为不确定性权重。对于涉及性别分层的分析,可通过dim1字段的特定值(如SEX_BTSX)进行精确过滤,确保分析的针对性。
背景与挑战
背景概述
儿童发育迟缓是衡量公共卫生成效的关键指标,尤其在全球营养不良负担最重的撒哈拉以南非洲地区。世界卫生组织(WHO)全球卫生观察站(GHO)长期跟踪该指标,并于2024年发布了基于模型的估计数据。非洲发育迟缓患病率数据集正是由Electric Sheep Africa团队从WHO GHO OData API系统整理而成,覆盖2000至2024年间47个非洲国家的国家层面观察值,总计3525条记录。该数据集以统一范式整合了置信区间与性别、地域等亚维度信息,旨在为机器学习驱动的区域健康研究提供标准化、可复现的基础资源。作为非洲数据平台的核心组成部分,该数据集填补了该地区儿童营养健康长期建模数据的缺口,对推动可持续发展目标2(零饥饿)的量化评估与干预策略优化具有重要意义。
当前挑战
该数据集所应对的核心领域挑战在于,非洲儿童发育迟缓率长期居高不下,而传统统计监测存在地域覆盖不全、时间序列断裂、数据质量参差不齐等瓶颈。构建过程中,研究团队需克服多重技术障碍:首先,原始WHO OData API返回的字段结构复杂,需将数值字段与显示字符串精准分离以获取浮点精度的估计值;其次,需对47个国家的指标进行了统一的ISO编码映射与区域过滤,同时处理性别、居住地域等多维度分层带来的数据冗余与聚合需求;此外,置信区间缺失条目的标记与不同更新频率下时间序列的对齐也构成关键挑战。最终,该数据集将异构的官方数据转化为机器学习友好的Parquet格式,显著降低了跨国产能与数据处理的门槛。
常用场景
经典使用场景
该数据集汇集了非洲47个国家在2000至2024年间5岁以下儿童发育迟缓患病率的模型估计值,涵盖整体估计及性别分层数据。其经典使用场景在于利用这些跨国家、跨时序的标准化观测,构建预测儿童营养状况的回归或分类模型,从而揭示非洲区域内儿童生长迟缓的时空分布规律与演变趋势。
解决学术问题
数据集有效解决了非洲儿童营养不良研究中数据碎片化与可比性不足的难题,为评估全球营养目标(如世界卫生大会营养指标)在非洲区域的实现进度提供了统一基准。研究者可借此分析社会经济、环境与卫生政策对儿童发育迟缓的影响,推动证据驱动的公共卫生决策。
衍生相关工作
基于该数据集衍生出多项经典工作,包括利用时间序列方法预测未来发育迟缓率以指导提前干预,以及结合气候、粮食安全等多源数据构建儿童营养不良的复合风险模型。此外,性别分层数据还推动了性别敏感的营养健康差异分析,深化了对不平等根源的认知。
以上内容由遇见数据集搜集并总结生成



