electricsheepafrica/africa-who-exclusive-breastfeeding-under-six-months-bfebfnumth
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-exclusive-breastfeeding-under-six-months-bfebfnumth
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标六个月以下婴儿纯母乳喂养的数量(以千计)(NUT_BF_EBF_NUMTH)在非洲国家的国家级观察数据,时间跨度为1986年至2021年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator Exclusive breastfeeding under six months (in thousands) (NUT_BF_EBF_NUMTH) across African nations, spanning 1986–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区六个月以下婴儿纯母乳喂养人数(单位:千)这一关键公共卫生指标。数据经过系统化整理,以Parquet格式存储,并采用统一的模式结构,确保机器学习就绪。所有数值均来源于原始API中的浮点精度字段,而非显示字符串,同时附带了可用的置信区间上下界。数据集覆盖1986年至2021年间45个非洲国家,共计271条观测记录,每条记录对应特定国家与年份的唯一组合。
特点
数据集的核心特色在于其高度的规范性与专业性。首先,它提供了明确的点估计值及置信区间,便于进行统计推断与不确定性量化。其次,该数据集保留了丰富的元数据,包括指标代码、国家ISO代码、世卫组织区域以及数据更新时间戳,极大地方便了数据溯源与多源融合。此外,数据集中包含维度字段,允许用户按性别、居住地区类型等亚组进行精细筛选。整个数据集规模精巧且无缺失子维度,尤其适合作为小样本非洲健康数据的基准分析集。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载该数据集,一行代码即可将其转换为Pandas DataFrame进行探索。针对国家层面的分析,建议过滤`dim1`字段以保留全国性数据(即性别总计或空值条目)。若需获取特定国家的时间序列,可对`country_iso3`字段进行筛选并依年份排序。该数据集非常适合用于回归任务以预测纯母乳喂养率趋势,或作为分类任务中的特征源。由于其预清洗的特性,用户亦可直接将`value_numeric`作为监督学习中的目标变量,无需额外处理。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织全球卫生观测站(WHO GHO)的公开数据整理构建,于2021年发布,旨在系统记录1986至2021年间45个非洲国家“六个月以下婴儿纯母乳喂养数量(千计)”这一关键公共卫生指标。纯母乳喂养率是评估婴幼儿营养状况与健康干预成效的核心指标,对于实现全球营养目标、降低婴儿死亡率具有深远意义。通过将零散的国家级观测数据整合为统一、机器学习就绪的Parquet格式,数据集为研究非洲地区母乳喂养趋势、政策评估及跨区域比较提供了标准化的高质量数据基础,显著推动了人工智能在公共卫生领域的应用与发展。
当前挑战
该数据集面临的挑战主要源于领域问题与构建过程的双重复杂性。在领域层面,纯母乳喂养数据往往受限于调查口径差异、卫生系统报告不完整及社会经济因素干扰,导致跨国家、跨时间段的准确估计极为困难,尤其非洲地区基础设施薄弱加剧了这一难题。构建过程中,原始WHO数据的稀疏性(仅271行)、部分年份与国家的缺失,以及置信区间边界的不完整,要求处理时需谨慎处理缺失值与异常值;同时,子维度(如性别、居住地类型)的存在增加了多粒度分析的复杂性,确保数据一致性与可重现性成为关键挑战。
常用场景
经典使用场景
该数据集聚焦于非洲地区六个月内婴儿纯母乳喂养率(以千计)这一关键公共卫生指标,涵盖了1986年至2021年间45个非洲国家的年度观测数据。其经典使用场景包括构建时间序列预测模型,以揭示非洲各国纯母乳喂养行为的长期演变趋势;同时可作为分类或回归任务的目标变量,用于评估不同国家、不同时间段内的喂养实践差异。研究者常利用该数据集进行跨国家比较分析,探索社会经济、卫生政策或文化因素对母乳喂养行为的潜在影响,从而为区域性营养干预策略提供数据驱动的实证基础。
解决学术问题
该数据集的核心学术价值在于填补了非洲地区婴儿喂养行为的高质量、结构化数据缺口,解决了长期以来因数据分散、标准不一而难以开展跨国家、跨时段对比分析的难题。研究人员可借助该数据集探讨纯母乳喂养率与婴儿死亡率、营养不良发生率等健康终点的关联,量化母乳喂养促进政策(如母婴友好医院倡议)在不同非洲国家的实际效果。此外,通过置信区间信息(value_low、value_high)的嵌入,研究者能够进行不确定性量化与贝叶斯统计分析,从而更严谨地评估数据质量对因果推断的影响,推动公共卫生领域在资源匮乏地区的循证决策科学化。
衍生相关工作
基于该数据集衍生出的经典工作主要集中在两大方向:其一,跨数据集整合研究,如将本数据集与WHO全球卫生观察站的其他营养指标(如低出生体重率、贫血患病率)联合分析,通过多变量回归或主成分分析揭示非洲儿童营养健康的协同演变模式。其二,机器学习模型迁移应用,例如利用本数据集训练的喂养率预测模型,可迁移至其他发展中地区(如南亚、拉丁美洲)进行参数微调,检验喂养行为的跨区域共性规律。此外,也有学者在HuggingFace社区中以此数据集为基准,开发了面向非洲公共卫生数据的标准化特征工程流水线,推动了机器学习方法在流行病学领域的可复现性建设。
以上内容由遇见数据集搜集并总结生成



