five

electricsheepafrica/africa-who-number-of-children-aged-6-59-months-with-anaemia

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-children-aged-6-59-months-with-anaemia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标“6-59个月大儿童贫血数量(千)”在非洲国家的国家级观察数据,时间跨度为2000年至2019年。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator "Number of children aged 6-59 months with anaemia (thousands)" (`NUTRITION_ANAEMIA_CHILDREN_NUM`) across African nations, spanning 2000–2019. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区6至59个月儿童贫血患病人数(以千计)的统计指标(NUTRITION_ANAEMIA_CHILDREN_NUM)。数据覆盖2000至2019年间47个非洲国家,共计4700条观测记录,所有数值均取自浮点精度的NumericValue字段而非显示字符串,并包含可用时的置信区间上下限。数据集由Electric Sheep Africa团队以统一的Parquet格式重新打包,确保符合机器学习就绪的架构要求。
特点
数据集以国家-年份为基本观测单元,同时引入严重程度(轻度、中度、重度、总计)和性别(两性)两个子维度,当指标按性别或年龄组分层时,每个国家、年份与维度的独特组合均生成独立行,便于精细化分析。数据列包括指示代码、国家ISO3代码、WHO区域、年份、数值估计及其置信区间、显示字符串、维度类型与值以及更新时间戳,结构严谨且兼具可追溯性。
使用方法
通过HuggingFace datasets库可便捷加载数据集,使用load_dataset函数直接获取训练集并转换为Pandas DataFrame进行后续分析。若需聚焦于两性及国家层面数据,可通过过滤dim1列中以'_BTSX'结尾或缺失的行实现;研究特定国家的时间序列趋势时,可依据country_iso3列筛选并基于year列排序。该设计支持分层聚合与多维度筛选,适用于时间序列建模、区域健康指标比较等机器学习或统计任务。
背景与挑战
背景概述
贫血作为全球公共卫生领域面临的重大挑战之一,尤其在撒哈拉以南非洲地区,对6至59个月龄儿童的生长发育、认知能力及免疫系统构成持久性威胁。世界卫生组织(WHO)全球卫生观察站(GHO)多年来持续追踪该区域的贫血负担,并于2019年整合发布了涵盖2000至2019年间47个非洲国家的儿童贫血人数指标(NUTRITION_ANAEMIA_CHILDREN_NUM)。该数据集由Electric Sheep Africa团队进行标准化重构,以Parquet格式提供,旨在为机器学习与流行病学分析提供统一、可复用的结构化数据。其发布填补了非洲大陆在儿童贫血精细化时空数据方面的空白,为政策制定者、国际健康机构及科研人员评估干预措施、优化资源配置、构建预测模型提供了可靠的数据基础,引领了非洲健康数据科学化治理的新方向。
当前挑战
该数据集的核心挑战源于非洲儿童贫血问题本身的复杂性与数据构建的技术壁垒。首先,贫血受多重因素交织影响,包括营养不良、疟疾、肠道寄生虫感染及社会经济条件等,单纯的统计指标难以准确刻画病因路径及其相互作用的动态效应,给预测模型与因果推断带来了显著困难。其次,数据集构建过程中面临的关键障碍在于:各国报告标准不一、历史数据缺失及测量手段差异导致的时间序列非均匀性与空间稀疏性,WHO虽提供置信区间(value_low、value_high)以辅助评估不确定性,但部分年份与国家的观测值依然存在较大波动和遗漏。此外,数据分层维度(如严重程度、性别)的表征方式增加了多标签分类与跨维度聚合的模型设计复杂度,对机器学习方法的细粒度泛化能力提出了更高要求。
常用场景
经典使用场景
该数据集记录了2000至2019年间非洲47个国家6至59个月儿童贫血患病数量的国家级观测数据,涵盖轻度、中度、重度及总计贫血类别,并区分性别维度。其经典使用场景包括构建时间序列预测模型,以捕捉贫血负担的长期演变趋势;亦可用于面板数据分析,探究国家间贫血流行率的差异及其与社会经济、环境因素的关联。研究人员常以此数据集为基准,训练回归模型或分类器,预测特定国家在未来年份的贫血儿童数量,或识别高风险群体,为公共卫生干预提供量化依据。
解决学术问题
该数据集直面非洲儿童贫血这一重大公共卫生挑战,解决了两个核心学术问题:其一,填补了非洲区域长时序、多国别儿童贫血数据的标准化缺口,使跨国比较与趋势分析成为可能;其二,通过提供置信区间信息,增强了统计建模中不确定性量化的可靠性。其意义在于为流行病学研究提供了高质量的基础数据源,推动了对贫血决定因素的深入探讨,例如关联营养不良、疟疾流行等风险因素,从而助力证据驱动的健康政策制定,对实现全球营养目标具有深远影响。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于时空统计模型的非洲儿童贫血负担估算研究,其中利用贝叶斯层次模型整合多源数据以生成精细化的高分辨率地图。此外,有学者将其与营养膳食调查数据结合,建立了因果推断框架,揭示贫血与社会经济地位的关联。在机器学领域,迁移学习方法被应用于该数据集,通过预训练模型在小样本国家间共享知识,提升预测准确性。这些工作共同丰富了全球健康数据科学的工具箱,推动了可复现研究范式在非洲公共卫生领域的普及。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务