electricsheepafrica/africa-who-stunting-prevalence-in-children-aged-5-years
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-stunting-prevalence-in-children-aged-5-years
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“5岁以下儿童发育迟缓流行率(%)”(`stunt5`)在非洲国家的国家层面观察数据,时间跨度为1993年至2019年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Stunting prevalence in children aged < 5 years (%)" (`stunt5`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,系统性地汇集了非洲地区五岁以下儿童发育迟缓患病率的国家级观测数据,时间跨度覆盖1993年至2019年。原始数据经过规范化处理,以Parquet格式存储,并采用一致的列式结构,所有数值均取自高精度浮点字段NumericValue,同时保留置信区间边界值。数据集的构建注重机器学习就绪性,纳入41个非洲国家的2477条记录,并依据年龄组、教育水平、居住地类型、性别及财富五分位等维度进行分层,确保多维度分析的可操作性。
特点
该数据集的核心优势在于其高维结构化设计与广泛的地域覆盖性。它不仅提供了发育迟缓患病率的点估计值,还附带了置信区间信息,增强了统计严谨性。数据按国家、年份及多种社会人口学维度(如性别、年龄组、财富五分位)进行细分,每个唯一组合构成独立行,这使研究者能够深入探索亚群体间的差异。此外,数据集采用机器友好的Parquet格式,并包含标准化的ISO国家代码和时间戳,便于与其他非洲健康数据集集成,支撑跨地域、跨时间的比较分析。
使用方法
研究人员可通过HuggingFace的datasets库便捷加载该数据集,使用load_dataset('electricsheepafrica/africa-who-stunting-prevalence-in-children-aged-5-years')命令即可获取。加载后,数据以Pandas DataFrame形式呈现,允许灵活的过滤与聚合操作。例如,通过筛选dim1字段中的BTSX后缀或空值,可提取双性别的国家层面数据;按country_iso3字段过滤并结合year排序,则可追踪特定国家的长期趋势。对于分层分析,可依据dim1和dim2字段选择特定维度组合,或通过聚合操作合并各分层数据以获取总体估计。
背景与挑战
背景概述
儿童发育迟缓是衡量全球营养与健康水平的核心指标之一,尤其在撒哈拉以南非洲地区,这一问题长期威胁着儿童生存质量与社会经济发展。该数据集由世界卫生组织全球卫生观测站(WHO GHO)于2019年创建,经Electric Sheep Africa团队重新整理后发布于HuggingFace平台,覆盖1993年至2019年间41个非洲国家的发育迟缓患病率数据。其核心研究问题在于系统记录五岁以下儿童发育迟缓的时空分布与人口学差异,为跨国家、跨年代的比较分析提供标准化数据基础。该数据集整合了来自官方API的精确数值及置信区间,并引入性别、居住地类型、教育水平等多种分层维度,显著提升了非洲区域健康研究的数据可用性与机器学习适应性,已成为全球健康领域中数据驱动决策的重要资源。
当前挑战
该数据集所应对的核心领域挑战在于非洲儿童发育迟缓问题的复杂成因与数据稀疏性,传统研究常因样本量不足或维度缺失而难以揭示地区间真实差异。构建过程中面临多重困难:首先,原始数据来自WHO多个OData接口,需统一格式并提取精确浮点数值而非展示字符串,避免精度损失;其次,不同国家上报数据的时空覆盖率不一,部分年份或国家仅有单一年份记录,需谨慎处理缺失值;再者,分层维度(如DHS地理区域和财富五分位数)存在大量缺失或编码不一致情形,需设计合理的聚合与过滤策略;最后,置信区间信息仅在部分观测中可用,如何在保留统计推断能力的同时保证数据集完整性,构成技术整合与质量控制的重要瓶颈。
常用场景
经典使用场景
在非洲儿童健康与营养评估研究中,该数据集被广泛应用于构建预测模型,以估算五岁以下儿童发育迟缓的患病率。研究人员常利用其包含的国家、年份、性别、居住地类型及财富五分位等分层维度,进行时空趋势分析与亚群差异比较。通过整合置信区间信息,学者能够评估估计值的可靠性,从而更精准地识别高危地区与脆弱群体。此外,该数据集的规范化格式使其易于融入机器学习流程,支持回归与分类任务的快速迭代。
实际应用
在实际应用中,该数据集为国际组织与非洲各国卫生部门提供了关键工具,用于监测联合国可持续发展目标中消除饥饿与营养不良的进展。非政府组织可依据其分析结果,优化资源分配,优先援助发育迟缓率居高不下的地区。同时,该数据可被集成进决策支持系统,辅助政策制定者评估营养干预措施的历史效果,并模拟不同投资方案可能带来的健康收益,从而提升公共卫生资金的利用效率。
衍生相关工作
基于此数据集,研究者已衍生出多项经典工作,包括构建发育迟缓预测的时间序列模型、开发用于识别风险因素的因果推断框架,以及设计可解释的机器学习分类器以区分不同亚群的风险等级。部分工作进一步将其与气候、农业或教育数据集融合,探索多维因素协同作用的机制。这些衍生研究不仅深化了对非洲儿童营养不良驱动力的理解,也推动了跨学科方法在公共卫生数据分析中的规范化应用。
以上内容由遇见数据集搜集并总结生成



