electricsheepafrica/africa-who-exclusively-breastfed-for-the-first-two-days-after-birth
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-exclusively-breastfed-for-the-first-two-days-after-birth
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(GHO)指标出生后前两天纯母乳喂养(NUT_BF_EBF2D)在非洲国家的国家级观察数据,时间跨度为2000年至2021年。这是Electric Sheep Africa系列数据集的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察站OData API,并以Parquet文件格式重新打包,采用一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator Exclusively breastfed for the first two days after birth (NUT_BF_EBF2D) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家“出生后前两天纯母乳喂养”这一关键健康指标(代码NUT_BF_EBF2D)。数据以Parquet格式存储,采用统一的模式结构,涵盖2000年至2021年间40个非洲国家的3245条观测记录。所有数值均直接取自浮点精度的`NumericValue`字段,而非显示字符串,并包含置信区间上下限(若可用)。数据经过区域筛选(仅限于WHO非洲区域),并按照教育水平、家庭财富、居住地类型、性别及财富五分位数等多个维度进行分层,每个国家-年份-维度的唯一组合生成独立行,便于精细化分析。
特点
该数据集的核心特点在于其多维分层结构与机器学习友好性。它提供了丰富的社会经济与人口统计分层维度,如教育水平、家庭财富、居住地类型、性别及财富五分位数,允许用户深入探索纯母乳喂养率在不同群体间的差异。每个观测均包含点估计值及置信区间,为统计分析提供了可靠性度量。数据集规模适中(3000余行),覆盖长达22年的时间跨度,适合进行时间序列分析与跨国家比较。其经过清洗的Parquet格式与统一模式,显著降低了数据预处理的复杂度,可直接加载用于分类或回归任务。
使用方法
使用该数据集时,可通过Hugging Face的`datasets`库直接加载,返回的DataFrame结构清晰,支持pandas等工具进行后续分析。用户可按需过滤维度:例如,通过筛选`dim1`字段中以`_BTSX`结尾的值或空值,获取仅包含两性数据的国家级观测;或通过`country_iso3`字段筛选特定国家(如KEN)并按年份排序,构建时间序列。对于机器学习任务,`value_numeric`可作为回归目标,而分层维度可作为特征或分组依据。置信区间列(`value_low`、`value_high`)可用于不确定性建模或加权回归,增强模型鲁棒性。
背景与挑战
背景概述
该数据集由Electric Sheep Africa于2021年整理并发布,源自世界卫生组织全球卫生观察站(WHO GHO),聚焦非洲地区“出生后前两天纯母乳喂养率”这一关键健康指标。核心研究问题在于量化非洲各国在2000至2021年间纯母乳喂养实践的覆盖水平及其人口学差异,为母婴营养干预政策提供科学依据。数据集覆盖40个非洲国家,包含超过3200条观测,并按教育水平、家庭财富、居住区域和性别等维度进行分层,极大提升了跨群体比较的精细度。作为首个面向机器学习统一格式的非洲健康数据资源,它在公共卫生数据科学领域具有开创性意义,为推动区域健康不平等研究及可持续发展目标监测提供了坚实的数据基础。
当前挑战
所解决的领域问题在于,纯母乳喂养率在非洲地区长期受制于分散、异质且更新滞后的数据源,难以进行跨国家、跨年份的精确比较与趋势分析。该数据集通过标准化架构整合WHO官方API数据,克服了多源数据格式不统一、指标定义模糊及缺失值处理等构建难题。同时,数据按教育、财富、城乡等维度分层,暴露了脆弱群体在母乳喂养实践上的显著差异,要求模型在处理稀疏分层样本时具备鲁棒性。此外,置信区间字段的引入为不确定性量化提供了可能,但也对回归任务的误差评估提出了更高要求,从而推动了针对小样本、高维分组情境下的统计学习方法的改进。
常用场景
经典使用场景
在母婴健康与公共卫生领域,非洲地区产后两天内纯母乳喂养率是一项关键监测指标。该数据集汇集了世界卫生组织全球健康观测站关于40个非洲国家2000年至2021年间纯母乳喂养实践的官方统计数据,涵盖不同教育水平、家庭财富状况、居住区域类型及性别维度下的分层观测结果。研究者可借此开展跨国家、跨时段的纵向趋势分析,评估社会经济发展与喂养行为之间的关联,或构建预测模型以识别喂养率偏低的高风险群体,为制定区域性干预政策提供数据支撑。
解决学术问题
针对非洲母乳喂养研究中长期存在的数据碎片化与标准不统一问题,该数据集通过统一模式整合了长达二十余年的官方统计记录,填补了高分辨率时-空-社会分层数据的空白。学者可量化教育程度、财富五等分、城乡差异等结构性因素对纯母乳喂养依从性的影响,解析随时间演变的非均衡性,并运用回归或因果推断方法探究健康不平等背后的驱动机制。这为全球健康领域关于早期营养干预效果评估和可持续目标监测提供了可靠的经验证据。
衍生相关工作
基于该数据集,研究人员已试图复现WHO全球健康观测站中的多维分层报告,并衍生出多种机器学习任务,如按地区或教育水平分类的喂养率回归预测、多标签分类以识别社会综合特征下的喂养模式,以及时间序列外推以预警喂养率衰减趋势。同时,该资源作为Electric Sheep Africa系列的重要组成部分,可与非洲其他健康指标数据集(如儿童免疫、营养状况等)联合分析,构建多层次健康决定因素模型,推动非洲大陆健康数据科学的开源生态发展。
以上内容由遇见数据集搜集并总结生成



