electricsheepafrica/africa-who-number-of-pregnant-women-with-anaemia

Name: electricsheepafrica/africa-who-number-of-pregnant-women-with-anaemia
Creator: electricsheepafrica
Published: 2026-05-02 13:06:31
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-pregnant-women-with-anaemia

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含非洲国家2000年至2019年间15-49岁孕妇贫血人数（以千计）的国家层面观察数据，属于WHO全球健康观察指标的一部分。数据来源于WHO Global Health Observatory OData API，并以Parquet文件格式重新打包，具有一致的架构。所有值均来自NumericValue（浮点精度字段），而非显示字符串。在可用的情况下，还包括置信区间边界（value_low，value_high）。数据集涵盖了47个非洲国家，总行数为4,700行，并包含子维度如严重程度（轻度、中度、重度、总计）和性别（女性）。

This dataset contains country-level observations for the WHO GHO indicator Number of pregnant women (aged 15-49 years) with anaemia (thousands) (NUTRITION_ANAEMIA_PREGNANT_NUM) across African nations, spanning 2000–2019. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 4,700 rows and includes sub-dimensions such as severity (mild, moderate, severe, total) and sex (female).

提供机构：

electricsheepafrica

搜集汇总

数据集介绍

构建方式

该数据集源自世界卫生组织全球卫生观察站（WHO GHO）的OData API，系统性地整合了非洲47个国家在2000至2019年间关于15-49岁孕妇贫血患病数量的统计指标（指标代码NUTRITION_ANAEMIA_PREGNANT_NUM）。原始数据中的浮点精度字段NumericValue被直接提取作为主要数值，同时保留了置信区间上下界，并以统一的Parquet格式重新封装，形成了具备机器学习就绪特性的结构化数据集合。数据还涵盖严重程度（轻度、中度、重度及总计）等子维度，使得每个国家、年份与维度的组合均生成独立观测行，为分层分析提供了坚实基础。

使用方法

使用者可通过HuggingFace datasets库直接加载该数据集，代码简洁高效，仅需一行命令即可将数据转换为Pandas DataFrame格式进行后续操作。针对不同分析需求，推荐通过过滤dim1字段中的性别标识（如SEX_BTSX代表两性合计）来提取全国性层面的数据，或依据country_iso3字段筛选特定国家的时间序列。数据集以Parquet格式存储，兼容主流数据处理框架，便于集成到端到端的机器学习流水线中，适用于回归预测、分类任务以及时空流行病学分析等场景。

背景与挑战

背景概述

非洲地区长期面临严峻的公共卫生挑战，其中妊娠期贫血是导致孕产妇及新生儿不良结局的主要风险因素之一。世界卫生组织（WHO）全球卫生观察站（GHO）长期追踪该指标，但官方数据分散、格式异构，限制了机器学习领域的直接应用。在此背景下，Electric Sheep Africa团队于近年整合WHO官方ODA接口数据，构建了首个统一、机器就绪的非洲妊娠期贫血数据集。该数据集覆盖2000至2019年间47个非洲国家的4,700条观测记录，包含严重程度分层与置信区间信息，为区域健康指标的多维分析提供了标准化基础。其发布显著提升了相关流行病学研究的可复现性，并为数据驱动的非洲母婴健康干预策略开发奠定了基石。

当前挑战

该数据集核心应对的领域问题在于：健康指标数据源的碎片化与异构性严重阻碍了跨国家、跨时间的纵向分析及机器学习建模。构建过程中，团队面临多重挑战：首先，原始GHO数据以展示字符串为主要输出形式，需从中精确提取数值型点估计与置信区间，并确保与规范化的计量标准一致；其次，指标按性别、严重程度等多维度纵向分层，每条国家-年份组合可能对应多条记录，需设计清晰的数据重构逻辑以支持灵活聚合与子集筛选；最后，需维护多来源数据的版本一致性，并在开源许可下平衡数据使用与归属，确保WHO原始数据的开放性不被削弱。

常用场景

经典使用场景

该数据集的核心应用场景在于对非洲孕妇贫血负担的量化分析与趋势研究。研究者可借助其覆盖47个国家、跨越近二十年时间序列的丰富观测数据，系统评估不同区域、不同严重程度（轻度、中度、重度）下贫血孕产妇的数量分布。通过整合置信区间信息，可进一步开展时空建模与流行病学预测，揭示贫血率的变化规律及其与公共卫生干预措施之间的关联。

解决学术问题

该数据集的引入有效破解了非洲地区孕产妇贫血流行病学研究中长期存在的数据碎片化与可获取性不足的难题。它为学界提供了一个标准化、机器可读的统计素材，使得跨国比较分析、风险因素识别以及干预效果评估成为可能。这一数据资源的公开，极大推动了全球营养健康领域对孕产妇贫血流行规律的实证探索，为后续制定精准的公共健康政策奠定了数据基础。

实际应用

在实际公共卫生场景中，该数据集为决策者提供了量化工具，用来识别贫血高发的国家与亚人群，从而实施有针对性的铁补充剂分发与营养改善项目。国际组织与政府部门可依据其分析结果，合理配置医疗资源，监测孕产妇贫血随时间变动的趋势，并科学评估已有健康政策的实施成效。同时，数据集的开放性也赋能了基层卫生机构利用本地化数据开展精细化健康管理。

数据集最近研究