electricsheepafrica/africa-who-prevalence-of-anaemia-in-women-of-reproductive-age
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-anaemia-in-women-of-reproductive-age
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家15-49岁女性贫血患病率(%)的国家级观察数据,时间跨度为2000年至2023年。数据来源于WHO GHO OData API,并以Parquet格式重新打包,包含数值估计和置信区间等信息。这是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Prevalence of anaemia in women of reproductive age (aged 15-49) (%)" (`NUTRITION_ANAEMIA_REPRODUCTIVEAGE_PREV`) across African nations, spanning 2000–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,经Electric Sheep Africa项目团队系统化整理与重构而成。数据聚焦于非洲地区育龄女性(15-49岁)贫血患病率这一关键健康指标,覆盖2000年至2023年间的47个非洲国家,共计3384条观测记录。原始数据中的NumericValue字段被精准提取为核心数值,同时保留了置信区间上下限(value_low, value_high)等统计信息。数据以Parquet格式统一存储,遵循标准化模式(schema),并依据WHO AFRO区域代码(ParentLocationCode = 'AFR')进行筛选,确保数据的地域聚焦性与一致性。
特点
该数据集兼具结构化、多维性与机器学习就绪(ML-ready)的显著特点。其包含国家代码、年份、WHO区域、点估计值及置信区间等核心字段,并引入性别(SEX)等维度变量,允许用户按不同分层(如SEX_BTSX对应两性)进行精细化筛选。数据规模在1千至1万条之间,时间跨度长达24年,空间覆盖几乎整个非洲大陆,为跨时空的流行病学分析提供了坚实基底。此外,数据采用标准化的Parquet格式与亲和性接口(如HuggingFace Datasets),极大降低了预处理门槛。
使用方法
使用该数据集极为便捷,用户可通过HuggingFace Datasets库直接加载。例如,执行`load_dataset('electricsheepafrica/africa-who-prevalence-of-anaemia-in-women-of-reproductive-age')`即可获取训练集,并转换为Pandas DataFrame进行后续操作。针对不同分析需求,可通过过滤dim1字段(如筛选以'_BTSX'结尾的行)获取国家层面两性数据,或通过country_iso3字段(如'KEN')提取特定国家时间序列。数据亦支持加权聚合与置信区间利用,适用于分类或回归任务,是研究非洲女性贫血流行趋势及健康不平等的理想工具。
背景与挑战
背景概述
贫血作为全球公共卫生领域的重大挑战,尤其对育龄妇女的健康、妊娠结局及后代发育产生深远影响。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测各国贫血流行状况,为政策制定和干预措施提供数据支撑。在此背景下,Electric Sheep Africa团队于2023年整合并发布了涵盖47个非洲国家、时间跨度2000至2023年的育龄妇女贫血患病率数据集,基于WHO官方OData API构建,采用统一schema的Parquet格式,旨在为机器学习研究提供标准化、可复用的非洲健康数据资源。该数据集聚焦于非洲区域,因其是全球贫血负担最重的地区之一,且现有公开数据往往分散、格式不一,严重制约了跨国家、跨时段的比较分析与预测建模。
当前挑战
该数据集所解决的领域核心挑战在于:非洲育龄妇女贫血患病率受到营养状况、传染病流行、社会经济水平及卫生服务可及性等多重因素交互影响,传统统计方法难以捕捉其复杂时空动态。利用该数据集,研究者可构建回归或分类模型,预测患病率趋势并识别高风险人群。在构建过程中,主要挑战包括:WHO原始API返回的数据存在缺失值,例如部分年份的置信区间(value_low/value_high)未提供;不同国家的数据上报频率和粒度不一致,导致时间序列稀疏;需处理性别、居住地类型等分层变量(dim1/dim2)带来的多维度聚合问题。此外,为确保机器学习兼容性,数据集将原始显示字符串中的数值提取为浮点精度字段,并统一国家编码为ISO 3166-1 alpha-3标准,降低了数据清洗成本。
常用场景
经典使用场景
该数据集是非洲地区育龄妇女(15-49岁)贫血患病率的标准观测来源,适用于机器学习中的回归与分类任务。经典用法包括构建时间序列预测模型,以捕捉非洲各国贫血患病率随年份的动态演变趋势;也可用于国家间横截面比较,识别高负担国家并分析地理与人口子群差异。研究者常利用其规范化架构快速加载数据,将贫血率作为目标变量,结合社会经济或卫生系统指标开展多变量关联分析。
解决学术问题
贫血是影响非洲育龄妇女健康的关键公共卫生问题,该数据集填补了区域级标准化贫血患病率数据的空白,解决了跨国比较中数据不统一、时间跨度短等长期困扰学术界的难题。它为流行病学研究提供了高质量、长时序的观测基础,助力学者评估非洲各国在应对贫血方面的进展与挑战,推动全球营养不良与妇女健康议题的量化分析,对制定循证政策具有重要支撑意义。
衍生相关工作
基于该数据集,研究者可以衍生出丰富的扩展工作:例如,整合非洲国家GDP、女性识字率或卫生设施覆盖率等多源数据,构建贫血影响因素的因果推断模型;也可以利用置信区间信息开展不确定性感知的贝叶斯时空建模;此外,还可将贫血率作为输入特征,关联孕产妇死亡率或低出生体重等下游健康结局,构建多层级的健康预警系统,推动数据驱动的公共卫生决策智能化。
以上内容由遇见数据集搜集并总结生成



