five

electricsheepafrica/africa-who-mean-hemoglobin-level-of-pregnant-women

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-hemoglobin-level-of-pregnant-women
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“15-49岁孕妇平均血红蛋白水平”(HEMOGLOBINLEVEL_PREGNANT_MEAN)在非洲国家的国家级观测数据,时间跨度为2000年至2019年。数据集是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO GHO OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为940行,区域筛选为WHO AFRO(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator "Mean hemoglobin level of pregnant women (aged 15-49 years)" (`HEMOGLOBINLEVEL_PREGNANT_MEAN`) across African nations, spanning 2000–2019. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区孕期女性(15-49岁)平均血红蛋白水平的国家层面观测数据,时间跨度覆盖2000年至2019年。数据经由Electric Sheep Africa项目重新封装,采用统一的Parquet文件格式存储,并确保所有数值字段均提取自高精度的浮点型原始值(NumericValue),而非显示字符串。对于置信区间,数据集在可能的情况下保留了上下界数值(value_low与value_high)。整体构建过程严格遵循WHO数据开放协议,旨在为机器学习应用提供标准化、可直接使用的非洲健康数据资源。
特点
该数据集涵盖了47个非洲国家的940条观测记录,每条记录代表特定国家与年份的单一数值,未进行子维度分层,因此结构简洁清晰。核心特征包括统一的指标编码、ISO国家代码、WHO区域标识、观测年份,以及作为主要机器学习目标变量的数值估计(value_numeric)。此外,数据集还包含了置信区间边界和格式化显示字符串,便于数据验证与可视化。值得注意的是,数据区域严格限定于WHO AFRO(非洲区域),并提供了数据最后更新时间的元数据,确保了信息的时效性与地域针对性。
使用方法
使用该数据集极为便捷,通过HuggingFace Datasets库即可一键加载,例如执行`load_dataset("electricsheepafrica/africa-who-mean-hemoglobin-level-of-pregnant-women")`后,可将训练集转换为Pandas DataFrame进行后续分析。针对特定研究需求,用户可通过过滤`dim1`字段筛选出全国层面(Both-sexes)的数据,或按国家ISO3代码(如`KEN`)提取单国时间序列,并结合年份排序以探索长期趋势。该数据集直接适用于表格分类与回归任务,是开展非洲孕期女性贫血状况流行病学研究的理想数据源。
背景与挑战
背景概述
贫血是威胁非洲孕产妇健康与围产期结局的关键营养障碍,血红蛋白水平作为诊断贫血的核心生物标志物,其群体监测数据对于制定营养干预策略、评估公共卫生成效具有不可替代的作用。在此背景下,由Electric Sheep Africa团队于近年从世界卫生组织(WHO)全球卫生观察站(GHO)OData API整理并发布的“非洲孕产妇平均血红蛋白水平(15-49岁)”数据集,覆盖了2000年至2019年间47个非洲国家的国家层面观测记录,共计940行,核心指标为孕产妇血红蛋白浓度的点估计值及其置信区间。该数据集通过统一模式转化为机器学习友好格式(Parquet),填补了非洲大陆孕产妇营养健康领域结构化、可复用数据的空白,为区域健康不平等分析、时序趋势建模及决策支持系统提供了可靠的数据基础。
当前挑战
当前数据集面临的主要挑战体现在领域问题与构建过程两个层面。在领域问题方面,其旨在解决的孕产妇贫血监测与预测任务,长期受困于非洲地区卫生统计体系薄弱导致的观测稀疏与质量参差,国家间数据可比性差、缺失值普遍,限制了区域宏观模型的泛化能力。在构建过程中,挑战主要来源于原始API中多种数据维度(如性别、城乡居住类型)的嵌套结构,需对大量元数据进行精准清洗与标准化转置,同时置信区间的缺失模式复杂多变,需权衡插补策略与信息损失;此外,作为国家层面的聚合数据,其内部隐含的省级及个体变异性被掩盖,难以支持细粒度推断与因果机制挖掘。
常用场景
经典使用场景
该数据集记录了2000年至2019年间47个非洲国家孕妇(15-49岁)的平均血红蛋白水平,每一条观测对应一个国家与年份的组合。在公共卫生与流行病学研究中,它最经典的使用场景是作为营养健康监测的纵向面板数据,用于分析非洲大陆孕产妇贫血负担的时空演变趋势。研究者可以借助该数据集构建时间序列模型,追踪血红蛋白水平随年份的变化轨迹,或将其作为国家层级的健康结局变量,与粮食安全、疟疾防控政策、社会经济指标等协变量进行关联分析,从而揭示影响孕产妇贫血的关键驱动因素。
实际应用
在实际应用层面,该数据集是国际卫生组织、非洲各国卫生部及非政府组织进行健康项目规划与资源调配的重要参考。公共卫生从业者可将其作为基线数据,用于识别贫血高发的国家与时间窗口,指导铁补充剂、营养强化项目的定向投放。此外,该数据集可与气候、农业、冲突等外部数据融合,构建脆弱性预警系统,预测营养不良风险。在机器学习领域,它可直接作为回归任务的目标变量,用于训练预测模型,以填补非洲数据稀疏地区的血红蛋白估计空白。
衍生相关工作
该数据集衍生了一系列具有学术影响力的经典工作。基于此数据,研究者开发了跨国家的时间序列预测模型,如使用贝叶斯分层模型或长短期记忆网络(LSTM)对各国血红蛋白水平进行外推估计。亦有工作将其与非洲孕产妇死亡率、出生体重等健康指标数据库联动,构建了多元健康结局的图神经网络分析框架。此外,该数据集还被用于验证空间插值方法在非洲卫生数据补全中的有效性,推动了地理统计学与全球健康交叉领域的创新。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务