electricsheepafrica/africa-who-prevalence-of-anaemia-in-children-aged-6-59-months
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-anaemia-in-children-aged-6-59-months
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家6-59个月儿童贫血患病率(%)的国别观测数据,时间跨度为2000年至2019年。数据来源于世界卫生组织全球健康观察站(WHO Global Health Observatory)的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。该数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Prevalence of anaemia in children aged 6-59 months (%)" (`NUTRITION_ANAEMIA_CHILDREN_PREV`) across African nations, spanning 2000–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集来源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区6至59个月儿童贫血患病率这一关键健康指标。数据经过系统化清洗与重构,以Parquet格式存储,确保一致的模式结构。其构建过程严格提取原始数据中的浮点精度字段(NumericValue),并保留可用的置信区间边界值(value_low与value_high),同时整合了国家、年份、性别与严重程度等多维分层信息。最终形成覆盖47个非洲国家、时间跨度为2000至2019年、总计4700条观测记录的机器学习就绪型数据集。
特点
该数据集的核心特色在于其多维分层与高可用性。数据不仅提供国家层面的年度点估计值,还按贫血严重程度(轻度、中度、重度、总计)和性别(男女合计)进行细分,使得研究人员能够进行精细化的亚组分析。每一行记录均包含国家ISO3代码、WHO区域标识、观察年份以及置信区间,为统计推断奠定了坚实基础。此外,数据集采用统一的Parquet列式存储格式,具备高效的压缩与查询性能,专为机器学习工作流优化,显著降低了数据预处理的门槛。
使用方法
借助HuggingFace的datasets库,用户可一键加载该数据集,并直接转换为Pandas DataFrame进行后续分析。使用`load_dataset`函数即可获取训练集,通过筛选`dim1`字段中以`_BTSX`结尾或为空的行,可轻松提取国家层面的全国男女合计数据。针对特定国家的时间序列分析,可按`country_iso3`字段过滤并依年份排序。数据集支持分类与回归任务,适用于贫血患病率预测、时空趋势建模及健康政策评估等场景,其清晰的模式定义使得数据集成与特征工程变得直观高效。
背景与挑战
背景概述
儿童贫血是撒哈拉以南非洲地区长期面临的重大公共卫生挑战,严重影响儿童认知发育与生存质量。世界卫生组织(WHO)全球卫生观察站(GHO)系统性地追踪这一指标,并于2019年整理发布了覆盖47个非洲国家、时间跨度为2000至2019年的国家层面观测数据。该数据集由Electric Sheep Africa团队统一重新打包为机器学习就绪的Parquet格式,旨在弥合非洲健康大数据与人工智能模型之间的鸿沟。核心研究问题聚焦于量化非洲6至59月龄儿童贫血患病率的时空分布与严重程度分层,为区域健康干预政策制定及机器学习建模提供标准化、可复用的数据底座。该数据集已成为研究非洲儿童营养状况与公共卫生经济学的重要参照基准,尤其在时间序列预测与地理空间分析领域具有显著影响力。
当前挑战
该数据集所解决的领域问题在于,非洲区域长时间序列、多国别儿童贫血患病率数据长期碎片化甚至缺失,严重制约了基于证据的公共卫生决策与精准健康模型的开发。原始数据从WHO OData API抽取后,需处理不同国家上报口径差异、置信区间缺失以及亚维度(如贫血严重程度、性别)的分层冗余,构建过程中面临的主要挑战包括:如何在不丢失统计信息的前提下将原始字符型数值统一转换为高精度浮点型;如何对47个国家超过四千七百条记录执行一致性模式匹配,确保机器学习流水线可直接调用;此外,还需应对部分年份和国别组合数据稀疏导致的插值偏差,以及平衡多维分层(severity、sex)与全国总体估计之间的逻辑冲突。
常用场景
经典使用场景
该数据集作为世界卫生组织全球卫生观察站(GHO)的核心指标之一,专注于非洲6-59个月儿童贫血患病率的连续监测。在流行病学与营养健康研究中,它常被用于构建时间序列模型,以揭示贫血在非洲国家间的分布差异与长期演变趋势。研究者可借助该数据集的年份、国家代码及严重程度分层维度,开展纵向比较分析,评估不同干预措施对儿童贫血改善的成效。同时,该数据集的统一Parquet格式与标准化字段设计,使其成为机器学习时序预测与回归任务的理想训练材料,尤其适合构建基于国家特征与年份的贫血风险预测模型。
实际应用
在实际公共卫生决策中,该数据集可支撑多个关键应用场景:世界卫生组织及非洲各国卫生部门可基于其时间序列特征,动态追踪国家层面贫血防控目标的完成进度,及时调整营养干预项目的资源配置。非政府组织与公共卫生机构可利用该数据设计数据驱动的预警系统,识别贫血高发国家或区域,从而优先部署铁补充剂、食品强化等针对性措施。此外,该数据集的可复现性与开源许可特性,使其能够无缝嵌入国家级健康监测平台,支持政策制定者进行情景模拟与成本效益分析,提升非洲儿童健康改善工作的科学性与有效性。
衍生相关工作
该数据集的发布催生了多个方向的衍生性研究:其一,研究者将其纳入多源健康数据融合框架,与DHS、MICS等微观调查数据结合,构建非洲儿童贫血的多层级预测模型;其二,围绕该数据的时间序列结构,涌现出利用Transformer与LSTM等深度学习模型进行未来贫血率预测的尝试,推动了公共卫生时序建模方法的前沿探索;其三,基于该数据的地理分布特性,部分工作将贫血患病率与其他GHO指标(如疟疾与营养不良率)进行关联分析,构建了揭示非洲儿童健康脆弱性耦合关系的综合指标体系,为系统性干预策略的制定提供了理论支撑。
以上内容由遇见数据集搜集并总结生成



