five

electricsheepafrica/africa-who-exclusive-breastfeeding-under-six-months-nutbfebf

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-exclusive-breastfeeding-under-six-months-nutbfebf
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家6个月以下婴儿纯母乳喂养情况的指标数据(NUT_BF_EBF),时间跨度为1986年至2021年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖45个非洲国家,总行数为5,640行,并包含多个子维度,如年龄组、教育水平、家庭财富等。

This dataset contains country-level observations for the WHO GHO indicator "Exclusive breastfeeding under six months" (`NUT_BF_EBF`) across African nations, spanning 1986–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 45 African nations with a total of 5,640 rows and includes various sub-dimensions such as age group, education level, and household wealth.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,专注于非洲地区六个月以下婴儿纯母乳喂养率指标(NUT_BF_EBF)。其构建过程首先通过OData API提取原始数值型观测数据,摒弃显示字符串,确保数据的数值精度。随后,数据被重新封装为Parquet格式文件,并采用统一的数据模式,涵盖国家、年份、估计值及置信区间等关键字段。针对该指标可能存在的分层维度(如性别、年龄组、居住地类型等),数据集通过独立行记录每一国家-年份-维度组合的观测值,从而保留了丰富的结构信息,便于研究者进行多维度分析。
特点
该数据集涵盖1986年至2021年间45个非洲国家的5,640条观测记录,时间跨度长、地理覆盖广,且所有数据均源于WHO官方来源,具备高度权威性与可靠性。其显著特点在于提供了丰富的分层维度,包括年龄组、教育水平、家庭财富、居住地类型、性别及财富五分位等,使研究者能够深入探讨不同亚群间的差异。此外,数据集不仅包含点估计值,还附带了置信区间上下界(若可得),为统计推断与不确定性量化提供了坚实基础。数据采用Parquet格式存储,支持高效的读写与机器学习工作流。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,例如使用`load_dataset("electricsheepafrica/africa-who-exclusive-breastfeeding-under-six-months-nutbfebf")`命令即可获取训练集,并可转换为Pandas DataFrame进行后续分析。在使用时,建议根据研究需求筛选特定维度,例如通过过滤dim1字段末尾为"_BTSX"或缺失值的行来获取全国层面的两性综合数据;若需分析时间序列,可按国家ISO代码(如"KEN")筛选并依年份排序。对于希望进行回归或分类任务的用户,`value_numeric`字段可作为目标变量,而各维度字段则构成特征空间,灵活适配多种机器学习模型。
背景与挑战
背景概述
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO),由Electric Sheep Africa团队于2021年左右整理并发布,聚焦于非洲地区六个月内婴儿纯母乳喂养率这一关键营养指标(NUT_BF_EBF)。作为一项横跨1986年至2021年、覆盖45个非洲国家的时序统计数据集,它系统整合了按性别、年龄、教育水平、家庭财富及居住区域等多维度分层的观测数据,为研究非洲婴幼儿营养状况、评估公共卫生政策成效提供了标准化的机器学习就绪资源。该数据集的问世填补了非洲大陆在纯母乳喂养领域高质量长时序开放数据的空白,有力推动了数据驱动的全球健康不平等分析与精准干预研究。
当前挑战
该数据集所应对的领域问题在于,非洲地区纯母乳喂养率受社会经济、文化习俗及医疗资源分布不均等因素影响呈现显著时空异质性,传统调查研究难以有效捕捉其动态演变与多维度决定机制。构建过程中遭遇的挑战包括:原始WHO数据以ODisplay字符串形式存储,需精准解析为浮点数值并保留置信区间;不同国家、年份间数据稀疏且抽样方案各异,导致缺失值频现;多层亚组(如财富五等分与教育水平交叉)的庞杂组合使得数据清洗与标准化整合面临格式统一难题;此外,确保跨45国长达36年数据的时间序列一致性与可比性,也对质量控制提出了严苛要求。
常用场景
经典使用场景
在非洲公共卫生与营养学研究领域,该数据集广泛用于评估和追踪六个月以下婴儿纯母乳喂养率的时间动态变化。研究者借助其覆盖45个非洲国家、横跨1986至2021年的丰富观测,能够构建国家层面乃至区域层面的喂养趋势曲线。数据集提供按性别、居住地类型、教育水平和财富五分位等多个维度进行分层特征,使学者可以深入剖析不同社会人口学亚群中的喂养行为差异。典型用法包括利用`value_numeric`列进行回归分析,探究影响纯母乳喂养持续时间的宏观因素,或借助置信区间进行不确定性评估,提升纵向比较的统计严谨性。
实际应用
在实际应用中,该数据集服务于非洲各国卫生部门与国际组织的营养项目评估和资源分配优化。例如,公共卫生官员可通过筛选特定国家(如肯尼亚)的时间序列数据,监控全国性母乳喂养促进活动的成效,并识别出教育水平较低或农村地区的喂养干预薄弱环节。非政府组织在制定社区营养方案时,能借助财富五分位分层信息针对最底层的40%家庭设计差异化支持策略。数据集中提供的置信区间范围还为区域健康报告提供了科学的统计基础,使政策制定者能够以数据驱动的视角权衡预算投向,确保有限资源精准投放到最需要改善喂养行为的群体。
衍生相关工作
基于此数据集,研究社群已衍生出多项经典工作,有力推动了非洲营养学实证分析的深化。其一,为多国面板数据建模奠定基础,催生了探索纯母乳喂养率与母亲教育水平及卫生设施覆盖率之间非线性关系的计量经济学研究。其二,推动了分层贝叶斯模型的广泛采用,学者利用数据集中的地理和时间层级结构,在数据稀疏的国家中实现跨时空信息的稳健借力,以预测未观测年份的喂养状况。其三,该数据集常与非洲其他健康指标(如儿童发育迟缓率、免疫覆盖率)融合,构建综合性营养健康风险图谱,助力揭示纯母乳喂养与后续儿童营养结局之间的长期级联效应。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务