five

electricsheepafrica/africa-who-prevalence-of-anaemia-in-non-pregnant-women

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-anaemia-in-non-pregnant-women
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“非孕妇(15-49岁)贫血患病率(%)”在非洲国家的国家级观察数据,时间跨度为2000年至2019年。数据来源于WHO全球健康观察站的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段,而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Prevalence of anaemia in non-pregnant women (aged 15-49) (%)" (`NUTRITION_ANAEMIA_NONPREGNANT_PREV`) across African nations, spanning 2000–2019. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区15至49岁非妊娠女性贫血患病率的国别级观测数据,时间跨度覆盖2000至2019年。数据经系统化采集后,以Parquet文件格式重新封装,并统一了数据结构。所有数值均取自高精度的浮点字段NumericValue,而非字符串展示形式,同时尽可能保留了置信区间的上下界信息,以确保数据的统计完整性和机器学习友好性。
特点
该数据集涵盖了47个非洲国家的4,700条观测记录,并依据WHO AFRO区域进行过滤。其独特之处在于引入了疾病严重程度(轻度、中度、重度及总计)与性别(限定为女性)两个维度的分层信息,每个国家、年份与维度的组合均构成独立记录。架构中包含标准化的列如indicator_code、country_iso3、year及核心数值value_numeric,并附带了置信区间与维度标签,便于进行分层分析或跨维度聚合。
使用方法
用户可通过HuggingFace的datasets库便捷地加载数据,例如使用`load_dataset`函数直接获取训练集,并转换为Pandas DataFrame进行后续分析。针对特定需求,可通过过滤dim1字段中的`SEX_BTSX`值或空值来提取全国层面的两性综合数据,或利用country_iso3列结合年份排序,构建单一国家(如肯尼亚)的贫血患病率时间序列,从而支持分类与回归等多种机器学习任务。
背景与挑战
背景概述
贫血作为全球公共卫生领域的重要议题,尤其在发展中国家中长期受到广泛关注。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2019年创建,并由Electric Sheep Africa研究团队重新整合,聚焦于非洲地区非孕女性(15-49岁)的贫血患病率。核心研究问题在于通过多年份、多国家的标准化观测,揭示非洲大陆贫血流行的时空动态与严重程度分布,为区域健康政策制定和干预措施评估提供数据基础。该数据集覆盖2000至2019年间47个非洲国家,包含近5000条观测记录,并细化了轻度、中度、重度及总体严重程度子维度,其系统性、一致性和机器可读性使其在预测建模、流行病学分析与健康不平等研究中具有显著学术价值,成为非洲营养健康领域的关键资源。
当前挑战
该数据集所解决的领域核心问题在于量化非孕女性贫血这一长期被低估的公共卫生挑战,其挑战主要体现为两方面。首先,在领域问题层面,贫血的患病率受地理、社会经济、饮食结构及医疗可及性多重因素交织影响,传统的研究方法难以剥离混淆变量,而该数据集的时序与空间覆盖虽广,但如何从粗粒度国别数据中提炼出因果机制、准确预测未来趋势,仍是模型构建的难点。其次,在构建过程中,面临的挑战在于数据同源性与质量控制:原始WHO数据来自不同国家的异构监测系统,可能存在定义差异、抽样偏差及报告延迟,数据集虽统一了架构并纳入置信区间,但缺失值如何处理、分层维度(如城乡、严重度)的稀疏性,以及如何确保跨时间、跨国家的可比性,均对后续分析构成实质性阻碍。
常用场景
经典使用场景
在非洲公共卫生研究领域,该数据集的核心价值在于提供了2000至2019年间47个非洲国家非孕女性(15-49岁)贫血患病率的标准化时序观测。其经典使用场景包括构建跨国家、跨时间维度的贫血负担趋势分析,通过回归模型或时间序列方法揭示贫血患病率与区域发展、营养政策及气候变迁等宏观因素的关联。研究者可依据严重程度分层(轻度、中度、重度)或仅聚焦全国性汇总数据,精准刻画非洲女性贫血问题的时空异质性,为全球健康不平等研究提供量化基石。
解决学术问题
该数据集解决了非洲区域健康数据零散、格式不统一导致的跨国家比较难题,使学术研究得以系统性地评估千年发展目标及可持续发展目标在女性营养健康领域的进展。通过整合WHO官方与贫血置信区间边界,它支持对统计估计精度的建模探讨,帮助学界区分真实趋势与抽样波动。此外,其结构化Parquet格式与一致模式降低了机器学习应用门槛,推动了预测模型在低资源环境中贫血风险预警、干预措施效果模拟及公共卫生资源优化分配等学术探索的深化。
衍生相关工作
基于此数据集衍生的经典工作包括多国健康风险因素归因建模,如利用其作为因变量探讨膳食多样性、疟疾流行率与受教育程度对贫血的影响,催生了非洲特定的小区域估计模型。此外,它被整合进全球疾病负担(GBD)比较研究中,作为验证腹地女性健康转型理论的证据源。更前沿的方向是将该数据与卫星遥感植被指数或降水数据对齐,借由时空协变量建立贫血预测代理模型,从而在高成本调查间隔年间持续监测健康脆弱性的动态演变。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务