electricsheepafrica/africa-who-mean-bmi-cdbmimeanc
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-bmi-cdbmimeanc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标“平均BMI(kg/m²)(粗略估计)”(NCD_BMI_MEANC)在非洲国家的国家级观测数据,时间跨度为1975年至2016年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Mean BMI (kg/m²) (crude estimate)" (`NCD_BMI_MEANC`) across African nations, spanning 1975–2016. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的OData应用程序编程接口,经Electric Sheep Africa项目系统化整理与再封装而成。数据完整覆盖非洲地区46个国家在1975年至2016年间共25,884条观测记录,所有数值均取自高精度的浮点型字段NumericValue,而非经过格式化的显示字符串。当指标按性别等维度进行分层时,数据集中以country × year × dimension多元组合生成独立行记录,并同步提供了置信区间上下界等辅助字段,整体以Parquet格式存储并遵循统一的列式架构,便于机器学习流水线的直接加载与分析。
特点
本数据集聚焦于非洲大陆居民的平均身体质量指数(BMI,粗估计值),核心特点在于其多层次的结构化设计。数据不仅涵盖国家与年份两个基础维度,还通过dim1与dim2字段提供了性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等子维度分层,为异质性分析提供了丰富的切片视角。此外,每条记录均附有点估计值、置信区间及显示字符串,既满足了回归任务对连续数值的需求,也兼容分类场景下的标签构建。数据集规模适中(1K至10K级别),且已按WHO AFRO区域过滤,保证了地域聚焦性与分析精度。
使用方法
用户可通过HuggingFace Datasets库便捷载入该数据集,调用load_dataset函数即可获取完整的训练集DataFrame。针对特定研究目标,推荐利用dim1字段过滤出全体性别(BTSX)或特定性别的子集,以聚焦于全国层面的统计估计。对于时间序列分析,可依据country_iso3列筛选目标国家,再按年份排序后开展趋势建模。若需在不同分层之间进行聚合计算,可通过分组操作对dim1与dim2字段进行透视处理。数据除了直接用于BMI的回归预测任务,亦可作为分类特征或背景知识融入多模态健康分析框架。
背景与挑战
背景概述
在全球非传染性疾病(NCDs)负担日益沉重的背景下,体重指数(BMI)作为衡量营养状况与代谢健康的核心指标,对公共卫生监测与政策制定具有关键意义。非洲大陆因其快速城市化与饮食结构变迁,正经历显著的流行病学转型,使得系统化和标准化的BMI数据需求尤为迫切。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)在1975年至2016年间持续采集,经Electric Sheep Africa团队整理并托管于HuggingFace平台,汇集了46个非洲国家的25,884条观测记录。核心研究问题聚焦于通过长时序、多国别的粗估均值BMI数据,支持区域营养流行病学分析、健康不平等量化以及干预措施效果评估。其统一的数据模式与机器可读格式,极大地降低了非洲健康大数据在机器学习应用中的获取门槛,对推动全球健康数据民主化与算法驱动的公共卫生研究具有重要影响力。
当前挑战
该数据集所应对的核心领域挑战在于,非洲地区长期面临高质量BMI监测数据的碎片化与缺乏问题。各国数据采集方法、时间跨度与质量参差不齐,传统指标往往仅提供汇总统计或间断性快照,难以满足基于时序分析的精细流行病学建模需求。在构建过程中,团队需从WHO OData API中解析连续的原始数值字段(NumericValue),而非易产生歧义的展示字符串,并处理数据中存在的大量空值置信区间(value_low, value_high)。此外,多维度分层(如按性别、城乡)的观测记录使得同一国家与年份可能产生多行数据,如何在统一模式中正确保留维度标签(dim1, dim2)的同时,支持灵活的子集过滤与跨层聚合,构成数据清洗与编排的主要技术难点。
常用场景
经典使用场景
非洲区域身体质量指数(BMI)均值数据集(africa-who-mean-bmi-cdbmimeanc)是研究非洲大陆人群营养状况与代谢疾病负担的基石性资源。该数据集源自世界卫生组织全球卫生观察站,囊括了1975年至2016年间46个非洲国家的年度粗估BMI均值,并依据性别进行了分层。在流行病学与公共卫生领域,研究者常将其作为核心变量,用于构建时间序列模型,以追溯非洲人群肥胖与超重趋势的演变轨迹,或作为多变量分析中的关键暴露因子,探究社会经济、环境及饮食结构等因素对体重状况的复合影响。该数据集结构规整、记录完备,尤其适合开展跨区域、长周期的纵向比较研究。
实际应用
在实际应用中,该数据集为非洲各国卫生部门与国际组织制定营养干预政策提供了量化支持。例如,联合国粮农组织与世界卫生组织可利用这些BMI均值数据,监测不同国家肥胖率的长期达标情况,动态调整国民健康促进计划的优先级。在区域层面,非盟卫生专员可依据年度BMI变化趋势,识别出营养过剩问题加速恶化的国家群体,从而精准调配抗糖与减重项目的资源。此外,该数据集还服务于健康保险的精算模型:保险公司可基于不同性别与地区的BMI历史数据,预测未来代谢类疾病的理赔风险,从而设计差异化的保费方案。医疗设备企业亦能借此分析市场潜在规模,优化血糖仪、血压计等慢性病管理产品在非洲的推广策略。
衍生相关工作
围绕该数据集,学术社区已衍生出一系列具有影响力的经典工作。在预测建模领域,诸多研究者基于此BMI数据构建了贝叶斯层次模型与长短期记忆网络,成功预测了非洲国家未来十年的肥胖流行率。在环境健康交叉研究中,该数据被用于拟合气温变化与人体能量平衡的统计关系,揭示了全球变暖可能通过改变体力活动模式间接影响BMI分布的生态学机制。此外,在公平性研究方面,学者们利用性别亚组数据开展了结构方程建模,量化了社会性别不平等指数与女性BMI偏离正常范围之间的关联强度。这些衍生工作不仅拓展了原始数据集的应用边界,更推动了跨学科方法论在非洲卫生数据科学中的融合创新,形成了从数据采集到理论解释的完整研究链。
以上内容由遇见数据集搜集并总结生成



