five

electricsheepafrica/africa-who-prevalence-of-anaemia-in-pregnant-women

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-anaemia-in-pregnant-women
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“15-49岁孕妇贫血患病率(%)”在非洲国家的国别观测数据,时间跨度为2000年至2019年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Prevalence of anaemia in pregnant women (aged 15-49) (%)" (`NUTRITION_ANAEMIA_PREGNANT_PREV`) across African nations, spanning 2000–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa团队系统化整合与重封装而成。其核心指标为“妊娠女性(15-49岁)贫血患病率”,覆盖2000年至2019年间47个非洲国家的年度观测数据,共计4,700条记录。数据以Parquet格式存储,遵循统一的模式架构,所有数值均采自浮点精度的字段,并附有置信区间上下界以供参考。此外,数据集按严重程度与性别等维度进行了分层,每一国家、年份与维度的组合均形成独立行,便于精细化筛选或聚合分析。
特点
该数据集兼具跨时空与多粒度特征,汇聚了非洲大陆近二十年的孕产妇贫血流行病学数据,并支持按严重程度(如轻度、中度、重度及总计)和性别维度进行分层分析。其结构清晰,包含国家编码、年份、数值估计及置信区间等关键字段,同时保留原始显示字符串,适配不同应用场景。数据集采用CC-BY-4.0许可协议,确保开放共享,且为机器学习任务而优化,可直接用于分类或回归建模。
使用方法
使用者可通过HuggingFace的`datasets`库快速加载数据集,例如调用`load_dataset`函数并将其转换为pandas DataFrame,以便进行后续分析。在数据筛选时,可依据`dim1`字段过滤出两性合计的全国级数据,或通过`country_iso3`字段提取特定国家的时间序列。推荐在模型训练前,针对指标的分层特征进行必要的聚合或过滤操作,以确保数据口径与研究问题的一致性。
背景与挑战
背景概述
孕期贫血是非洲孕产妇健康领域亟待解决的公共卫生问题,严重威胁母婴生命质量。世界卫生组织全球卫生观察站为此建立了专项指标NUTRITION_ANAEMIA_PREGNANT_PREV,并于2019年发布该数据集,由Electric Sheep Africa团队整理并托管于HuggingFace平台。该数据集覆盖2000至2019年间47个非洲国家的孕期妇女贫血患病率,包含严重程度与性别等细分维度,为探究非洲区域贫血流行趋势提供了结构化、机器学习友好的数据基础。其核心研究问题在于揭示营养性贫血在非洲孕龄女性中的时空分布规律,进而支持政策制定与干预措施优化,推动全球健康不平等问题的量化研究。作为首个经由统一模式整合并公开的非洲健康数据集,它在促进非洲健康数据可获取性、提升机器学习在公共卫生领域应用深度方面具有重要意义。
当前挑战
该数据集所解决的领域问题在于定量刻画并预测非洲孕期贫血的流行趋势,弥补了传统卫生统计在数据一致性、可复用性上的不足。然而,构建过程面临多重挑战:首先,原始WHO数据来源于不同国家的健康调查与卫生系统报告,国家间统计口径、报告质量参差不齐,导致部分年份或国家的数值缺失、置信区间宽泛;其次,贫血患病率受社会经济、地理环境、营养干预等混杂因素影响,数据集仅提供国家层面的年际观测,无法解析子人群内部差异或短期波动;此外,数据维度有限且时间跨度为2000至2019年,缺乏近期数据,限制了模型对未来趋势的外推能力。这些挑战也凸显了高分辨率、高频次健康数据采集与跨组织数据共享机制建设的紧迫性。
常用场景
经典使用场景
该数据集聚焦于非洲地区妊娠期女性(15-49岁)贫血患病率的国家层面观测数据,覆盖2000年至2019年共47个非洲国家,包含约4700条记录。其经典使用场景包括构建时序预测模型以追踪贫血患病率的演变趋势,以及开展跨国家、跨区域的风险因素对比分析。借助其中的严重程度分层信息(轻度、中度、重度)和性别维度,研究者能够精细化刻画不同亚群的健康负担,从而为循证政策制定提供数据支撑。
衍生相关工作
该数据集衍生出的经典工作包括:基于长短期记忆网络(LSTM)或Transformer架构的非洲贫血患病率多步预测模型;将贫血数据与疟疾、HIV感染等共病数据库联立,开展多病种联合风险评估的贝叶斯层次分析;以及利用迁移学习,将非洲贫血规律映射至其他发展中地区的对比研究。这些工作进一步拓展了数据在跨地域健康建模与政策模拟中的学术价值。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区孕妇贫血患病率的时空演化规律与公共卫生干预策略评估。在营养流行病学前沿,研究者正借助此数据构建机器学习预测模型,以揭示社会经济、地理环境与孕期贫血风险的深层关联。结合WHO全球健康观察站的持续监测成果,数据驱动的分析正助力定位干预优先级最高的区域,为推进‘世界卫生大会全球营养目标’中贫血发生率降低50%的里程碑提供实证基础,尤其对撒哈拉以南非洲的母婴健康政策制定具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务