electricsheepafrica/africa-who-underweight-prevalence-among-children-under-5-years-of-age
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-underweight-prevalence-among-children-under-5-years-of-age
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站指标“5岁以下儿童体重不足患病率(%体重-年龄<-2 SD),基于调查的估计”(NUTRITION_WA_2)在非洲国家的国家级观察数据,时间跨度为1985年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从世界卫生组织全球健康观察站OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Underweight prevalence among children under 5 years of age (% weight-for-age <-2 SD), survey-based estimates" (`NUTRITION_WA_2`) across African nations, spanning 1985–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区五岁以下儿童体重不足患病率(基于调查的估计值,指标代码NUTRITION_WA_2)。原始数据经过系统化整理与重构,以Parquet文件格式封装,并采用了统一的列式存储结构。所有数值均提取自浮点精度字段NumericValue,排除了显示字符串的干扰,同时保留了置信区间的上下界信息。数据覆盖1985至2024年间47个非洲国家,共计超过2.6万条观测记录,并依据WHO AFRO区域代码进行过滤,确保了地理范围的高度针对性。
特点
数据集的核心特色在于其多维度的分层结构,涵盖了年龄组、教育水平、家庭财富、居住地类型、性别、财富十分位数、财富五分位数及财富三分位数等多个亚维度。每个观测行代表国家、年份与某一维度组合的独特交叉点,使得研究者能够从细粒度视角探究体重不足患病率在不同社会人口学群体中的分布差异。数据还提供了点估计值及其上下置信区间,为统计分析提供了可靠的不确定性度量。此外,所有数据均遵循CC BY 4.0许可协议,确保了开放使用的合规性。
使用方法
该数据集可直接通过HuggingFace的datasets库进行加载,使用load_dataset函数即可获取训练集并转换为Pandas DataFrame进行后续分析。用户可通过过滤dim1字段(如以_BTSX结尾的值)提取两性合计的全国层面数据,或按country_iso3字段筛选特定国家的时间序列数据。支持基于dim1_type和dim2_type的维度筛选,便于按性别、居住地或财富水平等条件进行分层分析。对于回归或分类任务,value_numeric字段可作为主要机器学习目标变量,而value_low与value_high则可用于误差建模或不确定性量化。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年基于世界卫生组织全球卫生观测站数据构建,聚焦非洲47个国家1985至2024年间五岁以下儿童体重不足流行率(体重-for-年龄Z评分低于-2标准差)的调研估计值。作为非洲统一、面向机器学习的健康数据仓库的一部分,其核心研究问题在于揭示非洲大陆儿童营养不良的时空分布格局,并通过标准化的Parquet格式和一致的模式设计,为流行病学建模、公共卫生政策评估及可持续发展目标监测提供高质量数据支撑。该数据集凭借其覆盖多国家、长时间跨度和丰富分层维度(性别、居住地、教育水平等)的特性,显著提升了非洲区域儿童营养健康研究的可重复性与分析深度,对全球健康不平等议题的量化研究具有重要推动力。
当前挑战
数据集所解决的领域问题核心挑战在于非洲儿童营养不良的精准量化与预测:由于该地区数据采集频率低、调查方法不统一、国家间卫生系统差异显著,传统的单一指标或静态模型难以捕捉营养不良随时间与空间的动态演变。构建过程中面临的具体挑战包括:从WHO OData API多源异构接口中提取并清洗长达近40年的数据,需处理因年龄分组、教育水平、财富指数等分层变量导致的维度爆炸(超过50种分层组合)及其缺失值;原数据中包含显示字符串与数值字段的冗余信息,需剥离出浮点精度的核心估计值及其置信区间;此外,跨47国的大量元数据(如“最后一次更新”时间戳)需统一对齐,以保证分析一致性。
常用场景
经典使用场景
在公共卫生与营养流行病学领域,该数据集的核心应用在于探究非洲五岁以下儿童体重不足发生率的时空分布与多维影响因素。研究者可借此构建面板数据模型,揭示不同国家在近四十年间的营养状况演变轨迹,或借助分层特征(如性别、居住地类型、家庭财富水平)剖析弱势群体内部的差异性。年龄亚组与教育层级的细化维度,使得精准描绘营养干预的目标人群成为可能,从而为区域性营养改善策略的制定提供数据支撑。
实际应用
在实际应用中,该数据集为非洲各国卫生部门与国际发展机构提供了动态监测儿童营养状况的基础工具。政策制定者可以基于数据的时间序列趋势,评估既往营养干预项目的有效性,并识别因冲突或气候异常而新出现的高风险区域。此外,数据中的财富分位数与教育水平分层,有助于精准定位经济最弱势家庭,指导粮食补助、营养补充计划及教育宣传资源向最需要的群体倾斜,提升有限公共卫生资金的投入产出效率。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的学术工作,涵盖跨国营养不平等指数的构建、基于机器学习的体重不足风险预测模型,以及将营养指标与粮食安全、气候变异数据集进行关联的交叉分析。部分研究利用区域亚组信息,验证了城市化进程与儿童营养改善之间的非线性关联。该数据集作为“Electric Sheep Africa”计划的核心组件,也推动了基于标准模式构建的非洲健康状况统一数据仓库的发展,为后续的大规模健康指标联合建模奠定了结构化基础。
以上内容由遇见数据集搜集并总结生成



