electricsheepafrica/africa-who-overweight-prevalence-among-children-under-5-years-of-age-weightprev
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-overweight-prevalence-among-children-under-5-years-of-age-weightprev
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“5岁以下儿童超重率(%体重-身高>+2 SD),基于模型的估计”(NUTOVERWEIGHTPREV)在非洲国家的国家层面观测数据,时间跨度为2000年至2024年。数据集是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为3,525行,并包含按性别等子维度的分层数据。
This dataset contains country-level observations for the WHO GHO indicator "Overweight prevalence among children under 5 years of age (% weight-for-height >+2 SD), model-based estimates" (`NUTOVERWEIGHTPREV`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 3,525 rows and includes stratified data by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区五岁以下儿童超重患病率(以体重-for-身高>+2标准差百分比衡量)的模型估计值。数据以Parquet格式存储,并遵循统一的模式结构,所有数值均来源于高精度的浮点字段NumericValue,而非显示字符串。同时,数据集包含了置信区间上下限(value_low与value_high),确保统计推断的完整性。覆盖了47个非洲国家,时间跨度为2000年至2024年,共计3525条观测记录,并通过WHO AFRO区域代码进行过滤,确保地域聚焦。
特点
该数据集的核心特点在于其分层结构化设计,支持按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行子集筛选,使得研究者能够灵活地选择特定分层或聚合跨层数据。每一条记录都配备了明确的指示代码、国家ISO3代码、WHO区域、年份以及点估计值,同时提供了置信区间和显示字符串,便于统计分析和可视化展示。数据集的规模适中(1K至10K条记录),既保证了统计显著性,又避免了冗余,适合用于分类或回归等机器学习任务。
使用方法
使用该数据集时,可通过HuggingFace的datasets库直接加载,例如调用load_dataset函数获取训练集,并转换为Pandas DataFrame以便进一步处理。针对分析需求,可以过滤出特定性别分层(如双性BTSX)或国家层级的数据,以构建时间序列或横截面模型。例如,通过筛选country_iso3为KEN的条目并按年份排序,即可获得肯尼亚的超重患病率趋势数据。数据集的设计兼容多种机器学习框架,可直接用于预测建模或统计分析。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2024年整理发布,经Electric Sheep Africa项目重新封装,聚焦非洲地区5岁以下儿童超重患病率(基于体重-身高比>+2个标准差的模型估计值)。核心研究问题在于追踪非洲儿童营养失衡中超重现象的时空演变,为公共卫生干预提供数据支撑。数据集涵盖2000至2024年间47个非洲国家的3525条观测记录,包含按性别、居住地类型等分层维度,已通过CC BY 4.0许可开放。其贡献在于将WHO官方指标转化为机器学习就绪格式,填补了非洲区域儿童超重领域高质量时空数据的空白,有力推动流行病学建模与健康政策评估。
当前挑战
该数据集面临的核心挑战包括:1)领域问题层面,非洲儿童超重问题长期被营养不良议题遮蔽,数据稀缺导致对肥胖流行率的低估与干预滞后,亟需系统化数据整合以揭示隐蔽的健康转型趋势;2)构建过程中,需从WHO OData API抽取并清洗异构源数据,处理国家间报告标准不一致、部分年份置信区间缺失(value_low/value_high字段可能为空)以及分层维度(如SEX_BTSX与SEX_FMLE)的聚合难题,确保跨47国和25年时间序列的一致性与可比性,同时兼顾隐私约束下亚组样本量过小导致的统计不稳定性。
常用场景
经典使用场景
在公共卫生与流行病学研究中,该数据集常被用于分析非洲地区五岁以下儿童超重发生率的时空分布与变化趋势。研究者可借助该数据集构建多维度统计模型,考察性别、国家以及时间维度上的差异性,揭示区域内部儿童营养失衡的严重程度。其结构化的列式存储格式和包含置信区间的数值字段,使其特别适宜于基于机器学习的预测任务与健康指标监测系统的开发,成为评估非洲儿童营养状况变化的重要数据基石。
解决学术问题
该数据集有效填补了非洲地区儿童超重问题长期缺乏系统性、跨国家与跨时间序列数据的学术空白。研究者借助它可深入探讨儿童超重的区域异质性、城乡差异及其与性别因素的交互作用,推动对营养转型进程中超重与肥胖并存现象的理解。其模型化估计值结合置信区间的设计,显著提升了统计推断的可靠性,为揭示社会经济转型对儿童健康的影响机制提供了坚实的量化基础,助力全球营养目标的监测与策略优化。
衍生相关工作
依托该数据集,衍生出多项经典研究与实践工作,包括构建非洲儿童超重发生率的时空预测模型与贝叶斯分层回归模型,用于揭示国家特征与超重率的关联。此外,研究团队分析了该数据与经济发展指标、粮食安全数据的联合,探讨营养转型的驱动因素,并开发了基于该数据的交互式可视化看板,供政策制定者直观掌握区域健康态势。这些工作深化了对非洲儿童营养健康趋势的理解,并为全球儿童健康研究贡献了可复用的数据驱动范式。
以上内容由遇见数据集搜集并总结生成



