electricsheepafrica/africa-who-prevalence-of-underweight-among-adults-ncdbmi18a
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-underweight-among-adults-ncdbmi18a
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家成年人BMI低于18的体重不足患病率(年龄标准化估计)的国家级观测数据,时间跨度为1990年至2022年。数据集来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Prevalence of underweight among adults, BMI < 18 (age-standardized estimate) (%)" (`NCD_BMI_18A`) across African nations, spanning 1990–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,通过OData API直接获取并重新封装为Parquet格式,确保数据一致性与机器学习就绪性。数据涵盖非洲47个国家1990至2022年间成年人低体重患病率(BMI < 18的年龄标准化估计值)的观测值,共计4653条记录。为了保留原始数据的精度,所有数值均取自浮点精度字段'value_numeric',而非显示字符串,同时保留了置信区间边界(value_low, value_high)在内的元数据。数据集按国家、年份及亚维度(如性别分层SEX_BTSX、SEX_FMLE、SEX_MLE)组织,每一独特组合形成独立行,便于细粒度分析与跨维度聚合。
特点
该数据集的核心特色在于其严格的区域聚焦与统一化架构。它专精于WHO非洲区域(AFRO),覆盖47个非洲国家,时间跨度长达32年,为跟踪该地区成年人低体重变化趋势提供了连贯的时序数据。数据集采用标准化模式设计,包含indicator_code、country_iso3、who_region、year、value_numeric等关键字段,并整合了置信区间与维度信息(dim1_type, dim1等),支持从全国层面到亚群体的多层次分析。作为Electric Sheep Africa集合的一部分,其数据源自权威的WHO GHO指标NCD_BMI_18A,且以CC BY 4.0许可开放发布,确保了学术研究与实际应用中的可追溯性与合规性。
使用方法
使用该数据集时,可从HuggingFace Datasets库便捷加载:通过load_dataset函数直接获取,并转为Pandas DataFrame进行后续操作。典型用法包括过滤全国总体数据(仅保留dim1为_BTSX或缺失的行),以及按国家提取时间序列(如筛选country_iso3为'KEN'并排序)。数据集以Parquet格式存储,支持高效列式读取与处理。对于受性别或居住地区类型等分层的指标,用户可通过dim1和dim2字段进行细粒度过滤,或进行跨分层的汇总计算。此外,数据集已兼容主流机器学习工作流,可直接用于表格分类或回归任务,其中value_numeric字段可作为主要预测目标。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队整理,源自世界卫生组织全球卫生观测站,于2022年发布,聚焦非洲大陆成人体重不足(BMI<18)的年龄标准化患病率。作为非洲健康数据统一化与机器学习就绪化的重要成果,它整合了1990年至2022年间47个非洲国家的4,653条观测记录,涵盖性别等亚层维度。该数据集的核心研究问题在于揭示非洲区域成人营养不良的时空分布规律,为公共卫生政策制定与干预提供数据基石。其影响力体体现在赋能机器学习驱动的健康指标建模、填补非洲健康数据鸿沟,以及推动国际组织开放数据在非洲本土化应用方面,成为连接全球卫生指标与地方性研究的关键桥梁。
当前挑战
该数据集所解决的领域问题核心挑战是量化非洲成人营养不良的时空异质性,以应对该区域数据稀疏、统计口径不一、指标缺失率高等传统困境。在构建过程中,面临多重技术挑战:一是需从WHO全球卫生观测站OData API中精确提取并清洗NumericValue字段,排除显示字符串的噪声;二是处理47国跨33年的不均衡时间序列,尤其是应对置信区间缺失值;三是统一性别、居住地类型等亚层维度编码,确保ML-ready的架构兼容性。此外,数据集的覆盖范围受限于WHO AFRO区域,无法涵盖全非所有国家,且1990-2022年间的观测密度因国家而异,低收入国家数据点尤为稀缺,这直接影响了模型泛化能力与区域对比分析的可靠性。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于追踪成年人低体重患病率的长期趋势。研究者可基于47个非洲国家1990至2022年的时间序列数据,分析不同性别、区域维度下营养状况的变迁规律。其结构化且兼容机器学习的格式,使其成为构建分类或回归模型的理想基础,例如预测特定国家未来低体重患病率的演变方向。
解决学术问题
该数据集有效填补了非洲大陆层面体重不足患病率系统量化研究的空白。它解决了跨国家、跨年代比较分析中数据口径不统一和缺失的难题,使得学术界能够量化评估全球健康目标(如可持续发展目标2零饥饿)在非洲的实施进展。通过引入置信区间,数据还支撑了关于估算不确定性的严谨计量分析,提升了公共卫生政策评估的科学性。
衍生相关工作
围绕此数据集衍生了一系列经典工作,例如将其作为输入特征构建非洲营养健康脆弱性指数,或结合经济、气候数据训练多模态时空预测模型。部分研究利用其性别分层数据揭示了女性与男性在营养弱势中的差异演变模式。此外,该数据常与WHO GHO系列其他指标(如肥胖率、贫血率)联合分析,推动了对非洲营养转型双重负担的系统性理解。
以上内容由遇见数据集搜集并总结生成



