five

electricsheepafrica/africa-who-number-of-women-of-reproductive-age-with-anaemia

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-women-of-reproductive-age-with-anaemia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标15-49岁育龄妇女贫血人数(千)(NUTRITION_ANAEMIA_REPRODUCTIVEAGE_NUM)在非洲国家的国家级观察数据,时间跨度为2000年至2023年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of women of reproductive age (aged 15-49 years) with anaemia (thousands) (NUTRITION_ANAEMIA_REPRODUCTIVEAGE_NUM) across African nations, spanning 2000–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
贫血作为全球公共卫生领域的重大挑战,对育龄女性的健康与发展影响深远。该数据集聚焦于非洲地区,系统整理了世界卫生组织全球卫生观察站(WHO GHO)中关于育龄女性(15-49岁)贫血患者数量的关键指标(NUTRITION_ANAEMIA_REPRODUCTIVEAGE_NUM)。数据源自WHO GHO的OData API,经过规范化处理后以Parquet格式存储,确保了一致的字段结构。所有数值均提取自高精度的浮点型字段(NumericValue),而非显示字符串,并保留了置信区间上下限(value_low、value_high),为后续统计分析提供了可靠基础。数据集覆盖了2000年至2023年间47个非洲国家的3384条观测记录,并严格筛选了WHO非洲区域(AFRO)的数据。
特点
该数据集展现出多维度的结构化特征,使其在机器学习和统计分析中具备显著优势。首先,数据以国别、年份为基本维度,同时包含性别(SEX)等分层变量,每条记录对应国家、年份与分层变量的唯一组合,便于进行精细化的亚组分析。其次,数据集提供了完整的置信区间信息,这不仅提升了数据可靠性,也为预测模型的置信度评估创造了条件。此外,数据格式统一、字段命名清晰,包含indicator_code、country_iso3、who_region等关键字段,可直接用于时间序列预测、分类与回归等任务。其ML-ready的属性大幅降低了数据清洗与预处理的工作量,尤其适合需要快速迭代的非洲健康数据分析项目。
使用方法
数据集的使用极为便捷,支持通过HuggingFace的datasets库直接加载为Pandas DataFrame,便于后续探索与分析。用户可使用load_dataset函数一键获取训练集数据,并通过字段筛选进行针对性分析。例如,筛选性别为两性(BTSX)且无地域分层的记录,即可获得国家级别的宏观趋势;通过country_iso3字段限定特定国家(如KEN),并按年份排序,即可构建该国育龄女性贫血人数的时序数据。数据集支持多种机器学习任务,包括以value_numeric为目标的回归分析,以及基于贫血程度阈值(如结合置信区间)构建的分类问题。研究者还可利用dim1和dim2字段进行多维度交叉分析,深入探究性别、地域等分层因素对贫血患病数量的影响。
背景与挑战
背景概述
贫血是全球公共卫生领域面临的重大挑战之一,尤其在非洲地区,育龄妇女因营养不良、传染病及生育相关因素而承受着极高的贫血患病风险。世界卫生组织(WHO)通过全球卫生观察站(GHO)持续监测相关指标,为政策制定和干预措施提供数据支撑。在此背景下,由Electric Sheep Africa团队于2023年整理发布的“非洲育龄妇女贫血人数数据集”,聚焦于2000至2023年间47个非洲国家的国家层面观测数据。该数据集整合了WHO GHO官方API的原始数值,以结构化Parquet文件格式呈现,统一了字段定义,并纳入了置信区间边界值,从而显著提升了非洲健康数据的可用性和机器学习友好性。作为首个系统化面向非洲地区的贫血流行病学数据集,它为研究贫血负担的空间分布、时序变化及其与社会经济因素的关联提供了关键资源,在流行病学建模、健康政策评估及数据驱动的发展研究中具有重要影响力。
当前挑战
该数据集所解决的领域问题主要集中于育龄妇女贫血状况的量化分析与预测。贫血作为影响生殖健康、母婴结局及劳动生产力的多因素疾病,其分布不均与资源匮乏密切相关,传统统计方法难以捕捉国家间的异质性和时间动态。数据构建过程中的挑战则更为复杂:首先,WHO原始数据存在多维度分层(如性别、城乡),需要精细的维度过滤与一致性处理;其次,不同国家的数据采集标准、报告年份的完整性及置信区间缺失情况各异,清洗与插补工作颇具难度;最后,将来自不同年份和来源的数据融合为统一、可复用的机器学习格式,需兼顾时间序列的连贯性与字段的普适性。此外,数据量虽达3384行,但相较于非洲庞大的人口基数,样本规模仍然有限,可能对模型的泛化能力构成制约。
常用场景
经典使用场景
该数据集记录了2000年至2023年间非洲47个国家的育龄女性(15-49岁)贫血患病数量(以千计),源自世界卫生组织全球卫生观察站。其经典使用场景在于为非洲区域内的公共卫生流行病学研究提供标准化的纵向数据支撑,研究者可借此分析贫血负担的时空分布特征,开展跨国家、跨年代的趋势比较,或构建回归模型以探究社会经济、营养干预等因素与贫血患病率之间的关联。
实际应用
在实际应用中,该数据集成为国际组织、政府卫生部门和政策制定者优化资源配置的关键依据。例如,借助时序数据可识别贫血干预措施效果显著的年份与国家,指导针对性补铁计划或营养改善项目的部署。此外,它与降水、农业产量等环境经济数据进行融合,能够构建预警系统,预测营养不良高风险地区,从而提升公共卫生应急响应的前瞻性与效率。
衍生相关工作
基于该数据集衍生的经典工作包括利用机器学习算法对非洲贫血负担进行国家级预测与归因分析,以及将其与其他WHO营养指标(如儿童发育迟缓率)联合建模,揭示贫血与多重营养不良的共现模式。此外,该数据还与地理信息系统结合,生成非洲贫血风险地图,推动了空间流行病学在该领域的发展。这些工作共同促进了非洲健康数据开放共享生态的成熟,并为跨国合作研究提供了可复用的基线参照。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务