five

electricsheepafrica/africa-who-mean-hemoglobin-level-of-children-aged-6-59-months

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-hemoglobin-level-of-children-aged-6-59-months
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家6-59个月儿童的平均血红蛋白水平的国家级别观测数据,时间跨度为2000年至2019年。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Mean hemoglobin level of children aged 6-59 months" (`HEMOGLOBINLEVEL_CHILDREN_MEAN`) across African nations, spanning 2000–2019. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲地区6至59个月龄儿童的平均血红蛋白水平(指标代码:HEMOGLOBINLEVEL_CHILDREN_MEAN)。数据经由Electric Sheep Africa团队系统化采集与重构,以Parquet格式统一存储,并采用标准化的列式结构进行封装。所有数值均来源于WHO原始数据中的浮点精度字段NumericValue,而非展示字符串,同时保留了置信区间上下界(value_low与value_high),从而确保了机器学习任务的直接可用性与数据完整性。该数据集覆盖2000至2019年间47个非洲国家的年度观测记录,共计940条有效数据行。
特点
该数据集最显著的特征在于其针对非洲区域的专项聚焦与时间跨度的连续性,为研究该地区儿童贫血状况的长期演变提供了宝贵资源。每条记录包含国家ISO代码、WHO区域标识、观测年份、核心指标数值及其置信区间,并附有维度信息(如性别、居住区域类型)以支持分层分析。值得注意的是,数据集仅包含单一核心指标(无子维度),每个国家与年份的组合仅产生一条记录,这种简洁的结构极大降低了数据清洗与特征工程的复杂度,使其成为回归与分类任务的理想训练素材。
使用方法
数据集的使用极为便捷,可通过HuggingFace Datasets库直接加载并转换为Pandas DataFrame进行分析。用户可按性别过滤(如选取dim1字段以SEX_BTSX结尾的全体样本)以聚焦全国水平数据,亦可依据年份序列对国家进行纵向追踪(如筛选ISO代码为KEN的肯尼亚数据并排序)。支持基于WHO区域、年份范围或置信区间可用性等条件的灵活采样,适用于构建儿童贫血预测模型、区域健康指标对比分析或时空趋势可视化等研究场景。
背景与挑战
背景概述
贫血问题长期困扰着撒哈拉以南非洲地区的公共卫生体系,其中6至59个月龄儿童的血红蛋白水平是衡量贫血流行程度与营养干预成效的核心指标。基于此,世界卫生组织全球卫生观察站(WHO GHO)构建了标准化指标HEMOGLOBINLEVEL_CHILDREN_MEAN,并由Electric Sheep Africa团队于2019年将其整合为机器学习友好型数据集。该数据集覆盖2000至2019年间47个非洲国家、共计940条国家-年份层级观测记录,为区域儿童贫血负担的量化评估、时空趋势分析及干预政策建模提供了关键基础数据源。作为首个以非洲区域为重点、结构化存储的儿童平均血红蛋白数据集合,该数据集有力推动了全球健康领域的可重复研究与数据驱动决策。
当前挑战
该数据集所应对的核心领域挑战在于:非洲地区儿童贫血流行率居高不下,但现有监测数据常因国家间测量标准不一、时间序列不连续及低粒度报告而难以支撑精准干预建模。数据集构建中面临多重困难,包括从WHO OData API异构接口中统一提取47国跨二十年观测记录,将原始字符串型数值清洗为高精度浮点型指标,并以缺失高概率高为背景保留置信区间边界字段;此外,需处理多维度分层(如性别与居住区类型)带来的非平衡结构,确保不同粒度子集的可对齐性,最终整合为结构一致的Parquet格式,降低机器学习研究者的数据预处理门槛。
常用场景
经典使用场景
在非洲儿童营养与公共卫生领域,该数据集最经典的使用场景是作为**纵向时空分析与疾病负担评估**的核心数据源。研究者可基于47个非洲国家2000至2019年的年度观测值,构建面板数据模型,用于追踪学龄前儿童(6-59月龄)平均血红蛋白水平的长期演化趋势。该数据特别适用于评估区域贫血控制策略的有效性,例如通过断点回归或干预前后对比分析,检验大规模营养补充计划或疟疾防控项目的实施效果。其包含的置信区间信息为贝叶斯分层模型或不确定量化研究提供了宝贵支撑。
解决学术问题
该数据集精准回应了**非洲儿童贫血决定因素识别与地理不平等量化**这一长期悬而未决的学术议题。传统研究常受限于样本零散或时间跨度不足,而此数据凭借覆盖20年、47国的标准统一观测值,使学者得以运用空间计量经济学方法剖析贫血负担与国家经济发展、卫生系统可及性及气候因子之间的复杂关联。它催生了对跨国营养转型过程中儿童缺铁性贫血与感染性贫血占比变迁的再认识,相关研究为世界卫生组织制定区域性干预优先级提供了可复现的证据基础。
衍生相关工作
围绕此数据已衍生出多项具有范式意义的经典工作。在方法论层面,研究者利用其多国-多年结构验证了**缺失数据插补算法**(如MICE与矩阵补全)在稀疏健康指标中的表现。在应用层面,该数据被集成至非洲健康指标综合库中,作为训练**轻度贫血风险预测模型**的标签变量,这些模型结合卫星夜光数据及人口普查信息实现了无调查地区的贫血负担推估。更值得注意的是,其置信区间特征启发了**概率化疾病制图**领域的拓展,使得贝叶斯时空模型能够以更严谨的方式生成国家以下行政级别的贫血流行率后验分布。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务