electricsheepafrica/africa-who-mean-hemoglobin-level-of-non-pregnant-women
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-hemoglobin-level-of-non-pregnant-women
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“非孕妇(15-49岁)平均血红蛋白水平”(HEMOGLOBINLEVEL_NONPREGNANT_MEAN)在非洲国家的国家级观察数据,时间跨度为2000年至2019年。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Mean hemoglobin level of non-pregnant women (aged 15-49 years)" (HEMOGLOBINLEVEL_NONPREGNANT_MEAN) across African nations, spanning 2000–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集来源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,专注于非洲地区非妊娠女性(15-49岁)的平均血红蛋白水平这一关键健康指标。数据涵盖2000年至2019年间47个非洲国家的年度观测值,共包含940条记录。所有数值均基于API返回的浮点型字段NumericValue,而非显示字符串,确保了数值的高精度与一致性。数据集以Parquet格式封装,并附有统一的模式结构,同时保留了置信区间上下限(value_low与value_high)字段,为统计分析提供了可靠的不确定性度量。通过区域代码过滤(ParentLocationCode='AFR'),数据集严格限定于WHO非洲区域,排除了其他地区的干扰,从而构建了一个专用于非洲大陆健康研究的机器学习就绪型数据资源。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset函数即可获取训练集格式的DataFrame。使用to_pandas()方法可将数据转换为pandas DataFrame,便于进行灵活的数据清洗与探索。对于需要聚焦国家层面、两性合并(both-sexes)分析的研究,建议过滤dim1字段以筛选出以'_BTSX'结尾或为空的条目,从而获得全国代表性数据。时间序列分析可依据country_iso3字段对国家进行分组,并按年份排序,例如提取肯尼亚数据后通过sort_values('year')进行趋势分析。对于机器学习任务,value_numeric列可作为回归目标,而置信区间字段则可作为权重或不确定性指标。数据集还支持与同一来源的其他WHO GHO指标进行联合查询,以构建多特征预测模型。
背景与挑战
背景概述
贫血作为全球公共卫生领域的重要议题,对非妊娠女性(尤其是育龄期)的健康、生产力及母婴结局具有显著影响。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测各国血红蛋白水平,以评估贫血负担并指导干预政策。该数据集由Electric Sheep Africa在2019年整理并发布,聚焦非洲47个国家2000至2019年间非妊娠女性(15-49岁)的平均血红蛋白水平,数据源自WHO GHO官方API,经统一格式化为Parquet文件,兼具标准化与机器学习友好特性。该数据集为研究非洲地区贫血流行趋势、地理差异及时间动态提供了高质量量化基础,有助于揭示社会经济与营养干预的宏观效果,对指导区域健康资源配置与公共卫生决策具有深远影响。
当前挑战
该数据集所应对的核心领域挑战在于非洲非妊娠女性贫血问题的复杂性与数据稀缺性——贫血常与营养缺乏、传染病、贫困及卫生服务可及性交织,但历史监测数据零散且指标定义不一。在构建过程中,主要挑战包括:一是跨国家、跨年份的原始数据提取与清洗,需从WHO OData API实时抓取并处理缺失、异常值及置信区间不一致问题;二是异构元数据(如不同维度类型)的标准化,将原有多源字段(如性别、居住地类型)映射为统一schema,确保机器学习模型可直接使用而不丢失分层信息;三是数据量较小(仅940行),需平衡统计代表性与模型训练稳定性,避免因少量样本导致的过拟合或地域偏倚。
常用场景
经典使用场景
在公共卫生与流行病学的研究疆域中,贫血作为全球性的营养缺乏症之一,尤其对非洲育龄女性的健康构成严峻挑战。该数据集聚焦于非洲47个国家2000至2019年间非妊娠女性(15-49岁)的平均血红蛋白水平,为分析区域性营养健康变迁提供了珍贵的时空序列数据。经典用法是将国家、年份与血红蛋白浓度构成面板数据,借助时间序列分析或回归模型,揭示非洲大陆血红蛋白水平的长期趋势、周期性波动以及国家间的异质性模式。研究者可借此识别贫血负担最沉重的国家与时段,为制定针对性的干预策略奠定数据基础。
解决学术问题
该数据集直击了非洲地区孕龄女性贫血研究中长期存在的两个核心学术困境:一是跨国长期血红蛋白监测数据的缺失与碎片化,二是公开数据集的可获取性与机器可读性不足。通过整合世界卫生组织全球卫生观察站的官方数据,并采用标准化架构清洗与打包,解决了以往依赖分散调查报告进行跨国比较时遇到的尺度不统一与时间不连续问题。这一工作推动了区域健康经济学、营养流行病学与全球卫生治理领域的实证研究,使学者得以更精确地评估经济社会发展、粮食安全政策、女性教育水平等宏观因素对贫血率演变的因果影响。
实际应用
在实际应用层面,该数据集为非洲各国的卫生决策机构与国际援助组织提供了可操作的分析工具。基于血红蛋白水平的时空分布,政策制定者能够识别营养干预计划的优先区域与目标群体,例如在贫血高发国家推动铁剂补充计划或膳食多样化推广。此外,搭配机器学习模型后,数据集可用于预测未来数年血红蛋白浓度的演变路径,辅助动态分配医疗资源。非政府组织也可利用这些数据评估既往健康项目的实施效果,优化下一阶段的资源配置方案,从而提升有限公共卫生资金的利用效率。
数据集最近研究
最新研究方向
在非洲公共卫生领域,该数据集聚焦于育龄非妊娠女性血红蛋白平均水平的长期趋势与地域差异,为贫血防控、营养干预及母婴健康政策的制定提供了关键证据。依托WHO全球卫生观察站近二十年的官方记录,学者可基于此探索社会经济转型与饮食结构变迁对女性血液健康的影响,尤其结合撒哈拉以南非洲慢性营养不良与传染病双重负担的时代背景,评估各国卫生系统的响应实效。该数据集的标准化结构与置信区间字段,使其成为机器学习驱动的贫血风险预测模型与时空流行病学分析的理想训练基底,助力精准锁定高危人群并优化资源配置。
以上内容由遇见数据集搜集并总结生成



