five

electricsheepafrica/africa-who-number-of-non-pregnant-women-with-anaemia

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-non-pregnant-women-with-anaemia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“15-49岁非孕妇贫血人数(千)”在非洲国家2000-2019年的国家级观察数据。数据来源于WHO全球健康观察站OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator Number of non-pregnant women (aged 15-49 years) with anaemia (thousands) (`NUTRITION_ANAEMIA_NONPREGNANT_NUM`) across African nations, spanning 2000–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区非妊娠女性(15–49岁)贫血人数(以千计)这一关键营养健康指标。原始数据经过系统化的提取与重封装,以Parquet文件格式呈现,并遵循一致的Schema设计。所有数值均取自高精度的浮点型字段NumericValue,而非显示字符串,确保了数据的计算可靠性。同时,数据集保留了置信区间上下限(value_low与value_high),为统计分析提供了稳健的误差参考。最终覆盖了47个非洲国家、横跨2000年至2019年的4700条观测记录,并依据WHO AFRO区域代码进行地理筛选。
特点
该数据集具备鲜明的结构化与多维特征。其核心变量包括国家ISO3代码、观测年份、贫血人数点估计值及置信区间,同时引入了子维度分层机制,例如贫血严重程度(轻度、中度、重度及总计)与性别维度,允许研究者按特定亚组进行精细筛选。每一行代表国家、年份与维度组合的唯一观测,支持跨维度的聚合或下钻分析。此外,数据集包含元数据字段如指标代码、WHO区域、更新时间戳,以及格式化显示字符串,兼顾了机器学习的可用性与人类可读性。整体上,该数据集以统一、标准化的形式呈现,适用于时间序列分析、预测建模及区域健康比较研究。
使用方法
该数据集的使用极为便捷,用户可直接通过HuggingFace的datasets库加载,调用load_dataset函数即可获取训练集并转换为Pandas DataFrame进行后续分析。典型应用场景包括按特定维度筛选数据,例如通过dim1字段中的'BTSX'后缀提取两性合并的全国级数据,或利用country_iso3字段针对单一国家(如KEN)排序构建时间序列。研究者亦可基于年份、严重程度等变量进行条件过滤或分组聚合,以适配回归或分类任务。数据集的标准化Schema与丰富维度使得其易于集成至机器学习管道中,例如作为特征工程或监督学习的输入源。
背景与挑战
背景概述
贫血作为全球公共卫生领域的重要议题,尤其对非洲地区非妊娠期育龄女性的健康构成深远影响。该数据集由世界卫生组织全球卫生观察站(WHO GHO)于2019年创建,并经Electric Sheep Africa团队整理发布,聚焦于2000至2019年间47个非洲国家中15至49岁非妊娠女性贫血患病数量的统计。数据集以Parquet格式呈现,融合了分层指标(如严重程度和性别)与置信区间数据,为机器学习驱动的流行病学建模提供了标准化、高质量的数据基础。其核心研究问题在于揭示非洲地区贫血负担的时空分布规律,并为政策制定者提供数据支撑,从而在推动区域健康不平等研究和全球营养干预策略优化方面具有显著影响力。
当前挑战
该数据集所解决的领域问题核心在于应对非洲地区非妊娠女性贫血数据的碎片化与不一致性,传统方法常受限于数据缺失、统计口径差异及时间跨度不连续,难以支撑精准的预测分析与干预效果评估。构建过程中面临的挑战包括:从WHO OData API整合多国多维度指标时需处理不同年份间数据记录的完整性差异,以及因分层变量(如严重程度和性别)带来的数据冗余与交叉筛选复杂性。此外,置信区间边界的部分缺失和指标代码的标准化转换,进一步增加了数据清洗与特征工程的技术难度,要求研究者在保持数据结构一致性的同时,确保模型输入的可解释性与鲁棒性。
常用场景
经典使用场景
在非洲公共卫生与营养流行病学领域,该数据集常被用于构建预测模型,以估算育龄非妊娠女性贫血患病负担的时空分布。研究者通常利用其覆盖47个非洲国家、跨越2000至2019年的面板数据,结合贫血严重程度分层(轻度、中度、重度及总计),开展区域健康不平等分析或纵向趋势研究。其经典的预测任务涵盖回归(如估计贫血人数)和分类(如判定严重程度等级),为机器学习模型提供结构化的时序基准。
解决学术问题
该数据集有效解决了非洲地区非妊娠女性贫血人数长期缺乏标准化、机器可读统计数据的难题,弥合了全球健康数据鸿沟。学术上,它支持研究者探究社会经济、环境与营养干预对贫血负担的因果效应,量化国家间及时间维度上的健康差异。其意义在于为循证政策制定提供数据基础,助力实现可持续发展目标中关于改善孕产妇健康与消除营养不良的具体指标。
衍生相关工作
该数据集衍生了一系列围绕非洲健康数据标准化与集成的研究工作,例如Electric Sheep Africa项目基于同类WHO指标构建的统一分析管线,促进跨数据集联合建模。相关经典工作包括利用该数据与营养摄入数据融合,训练因果森林模型以估算贫血的可预防比例;以及开发时空高斯过程模型,预测未观测年份和国家层的贫血负担。这些工作显著提升了非洲健康数据在机器学习社区的可复用性与影响力。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务