electricsheepafrica/africa-who-ever-breastfed

Name: electricsheepafrica/africa-who-ever-breastfed
Creator: electricsheepafrica
Published: 2026-04-30 13:46:19
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/electricsheepafrica/africa-who-ever-breastfed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含非洲国家在1986年至2021年间关于曾经母乳喂养（WHO GHO指标代码：NUT_BF_EVBF）的国家级观察数据。数据来源于WHO Global Health Observatory OData API，并以Parquet文件形式重新打包，包含数值估计和置信区间等信息。数据集是Electric Sheep Africa项目的一部分，该项目是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator Ever breastfed (NUT_BF_EVBF) across African nations, spanning 1986–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.

提供机构：

electricsheepafrica

搜集汇总

数据集介绍

构建方式

该数据集源自世界卫生组织全球卫生观察站（WHO GHO）的OData API，聚焦于非洲地区“曾母乳喂养”这一健康指标（NUT_BF_EVBF）。数据以Parquet格式重新打包，采用统一的列式结构，确保机器学习就绪。所有数值均提取自精确浮点字段NumericValue，而非格式化字符串，并保留置信区间上下限（value_low, value_high）。数据集涵盖1986年至2021年间的44个非洲国家，共计4761条观测记录，按国家、年份及多种社会人口学维度（如教育水平、家庭财富、居住地类型、性别和财富五等分）进行分层，每一层均以独立行呈现。

使用方法

使用该数据集十分便捷，可通过HuggingFace的datasets库直接加载，调用load_dataset('electricsheepafrica/africa-who-ever-breastfed')即可获取训练集并转换为Pandas DataFrame。研究者可根据dim1和dim2字段筛选特定分层，例如通过筛选dim1以_SEX_BTSX结尾的值获取两性全国数据，或按country_iso3列提取特定国家的时间序列。数据已结构化，支持直接用于机器学习模型的训练与评估，无需额外清洗。对于需要聚类的分析，可跨亚组进行汇总，灵活适配多种研究场景。

背景与挑战

背景概述

该数据集源自世界卫生组织（WHO）全球卫生观察站（GHO），由Electric Sheep Africa团队于近期整理发布，聚焦于非洲地区婴儿“曾接受母乳喂养”这一关键营养指标（代码NUT_BF_EVBF）。作为WHO GHO指标体系的重要组成部分，该指标被广泛用于监测和评估各国婴幼儿喂养实践，对理解非洲大陆的营养状况、母婴健康及公共卫生干预效果具有深远意义。数据集覆盖了1986年至2021年间44个非洲国家的4761条观测记录，不仅包含了点估计值，还提供了置信区间及按教育水平、家庭财富、居住地类型、性别和财富五分位等维度细分的子层数据，为跨国家、跨时间、跨群体的比较分析提供了宝贵资源。这一高结构化、机器学习友好的格式，极大地推动了非洲健康数据在数据科学和流行病学领域的二次利用，有望促进针对该地区母乳喂养率提升的精准政策制定。

当前挑战

该数据集所解决的领域问题核心在于：非洲地区长期面临婴幼儿营养不良与母乳喂养率不均衡的挑战，而高质量、标准化、跨国的纵向数据严重匮乏，使得研究者难以系统评估喂养模式的变化趋势及其社会决定因素。构建过程中，数据整合面临多重困难：首先，WHO GHO原始API数据需经过复杂的清洗与转置，包括从不同维度（如性别、教育、财富）的字符串标识中提取和统一指标含义；其次，由于各国报告年份和维度层级不一致，导致数据稀疏性显著，例如部分国家仅报告特定亚组而缺失总体值，给交叉验证和汇总分析带来挑战；此外，置信区间边界的不完整记录也限制了meta分析与不确定性量化的应用。如何在不引入模型假设的前提下，有效处理这些异质性高的非平衡面板数据，是当前利用该数据集进行稳健推断的主要技术障碍。

常用场景

经典使用场景

在公共卫生与营养健康研究领域，非洲地区婴幼儿喂养行为一直是全球关注的核心议题。该数据集聚焦于世界卫生组织全球卫生观测站中'曾母乳喂养'这一关键指标，收录了1986年至2021年间44个非洲国家的国家级观测数据。其最经典的使用场景在于，通过分层维度（如教育水平、家庭财富、居住区域类型、性别及财富五分位）对母乳喂养率进行精细刻画，从而支撑跨国别、跨年代的纵向趋势分析与横截面比较研究。研究者可基于该数据集构建回归模型或时间序列预测，探索社会经济地位、城市化进程与母乳喂养行为之间的关联机制。由于数据以结构化表格形式呈现并兼容机器学习流水线，它也为发展中国家健康指标的自动化监测与预警系统提供了高质量的训练素材。

解决学术问题

该数据集系统性地回应了非洲地区母乳喂养研究长期面临的几大学术困境。首先，它打破了数据碎片化与标准不一的壁垒，将来自WHO官方渠道的指标统一为机器可读的Parquet格式，并附有置信区间边界值，这显著提升了跨国比较研究的信度与效度。其次，通过囊括丰富的社会人口学亚组维度（如教育层级、财富十等分组等），它使学者得以解析母乳喂养率在不同群体间的异质性，从而精准识别弱势群体与健康不平等问题。再者，该数据集的时间跨度达35年，为评估公共卫生干预政策（如《国际母乳代用品销售守则》的执行效果）的长期影响提供了宝贵的纵向证据。这些属性共同推动了全球营养转变理论在非洲语境下的实证检验，并强化了数据驱动型健康决策的科学基础。

实际应用

在实际应用中，该数据集已成为非洲区域健康治理与项目评估的重要工具。国际组织如联合国儿童基金会与世界卫生组织可借助其分层数据，监测各国在可持续发展目标中关于婴幼儿营养指标（如6个月内纯母乳喂养率）的进展。国家卫生部门能够利用这些历史趋势，定位母乳喂养率持续低迷或波动剧烈的地理区域，进而设计针对性的社区干预方案，例如在低收入城市贫民窟推广母乳喂养咨询。此外，非政府组织在申请项目资金时，可引用数据集中置信区间稳健的统计结果，论证干预行动的必要性。对于数据科学家而言，该数据集可直接用于训练预测模型，估算缺失年份的估计值或在资源匮乏地区模拟政策情景，从而辅助制定更具成本效益的健康推广策略。

数据集最近研究