five

electricsheepafrica/africa-who-prevalence-of-overweight-among-adults-ncdbmi25a

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-overweight-among-adults-ncdbmi25a
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家成年人超重率(BMI ≥ 25)的年龄标准化估计数据,时间跨度为1990年至2022年。数据来源于WHO GHO OData API,并以Parquet文件格式重新打包,包含数值估计和置信区间等信息。数据集覆盖47个非洲国家,总行数为4,653行,并包含性别等子维度信息。数据模式包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计、置信区间边界、显示字符串、维度类型和值等列。

This dataset contains country-level observations for the WHO GHO indicator "Prevalence of overweight among adults, BMI ≥ 25 (age-standardized estimate) (%)" (`NCD_BMI_25A`) across African nations, spanning 1990–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经过系统性整合与重构,形成了一份聚焦非洲大陆、面向机器学习应用的标准化数据资源。数据集涵盖了47个非洲国家自1990年至2022年间,关于成年人超重患病率(年龄标准化估计值,BMI ≥ 25)的年度观测值,共计4653条记录。所有数值均取自API返回的浮点精度字段`NumericValue`,并保留了置信区间上下界信息。数据以Parquet格式存储,确保高效的读写性能与跨平台兼容性。
使用方法
数据集可通过HuggingFace的`datasets`库直接加载,`load_dataset("electricsheepafrica/africa-who-prevalence-of-overweight-among-adults-ncdbmi25a")`命令即可获取训练集。推荐将数据转换为Pandas DataFrame进行后续操作:通过过滤`dim1`字段中后缀为`_BTSX`的条目可提取全国总体数据,按`country_iso3`与`year`排序则可获得单一国家的时间序列。数据集同时适用于表格分类与回归任务,是研究非洲地区肥胖流行病学的理想工具。
背景与挑战
背景概述
在全球公共卫生领域,肥胖与超重已成为非传染性疾病(NCDs)的核心风险因素,尤其在非洲地区,城市化与饮食结构变迁正加速这一流行趋势。世界卫生组织(WHO)于2022年发布的《全球卫生观察》(GHO)指标NCD_BMI_25A,聚焦于非洲47国成年人(BMI≥25)的超重患病率(年龄标准化估计),时间跨度从1990年至2022年,旨在系统揭示这一公共健康危机的演化轨迹。该数据集由Electric Sheep Africa团队负责整合与封装,以机器学习友好的Parquet格式呈现,兼容表格分类与回归任务,为跨学科研究提供了结构化、可复用的数据资源。作为全球健康大数据的重要一环,该数据集不仅为流行病学建模、政策效果评估提供了连续且标准化的指标,更推动了非洲地区非传染性疾病研究从描述性统计向预测性分析的范式转变。
当前挑战
该数据集所应对的领域问题聚焦于非洲大陆超重与肥胖趋势的量化建模与风险预测,传统上受限于零散、非标准化的国家报告数据,导致区域比较与趋势推断存在偏差。构建过程中,首要挑战在于从WHO复杂的OData API中提取高维度、分层级(如性别、城乡)的观测值,并确保仅保留浮点精度的`NumericValue`字段以维持数值一致性。其次,数据集跨32年、覆盖47国,需应对不同年份和国家的缺失置信区间边界(value_low/value_high)问题,同时处理`dim1`/`dim2`维度列中的分类编码(如SEX_BTSX、RURAL)以避免信息碎片化。此外,为达成机器学习就绪状态,团队需在保留原始结构化语义(如分性别与不分性别的行级重复)的同时,统一Parquet schema,从而在简化下游处理与保留分析灵活性之间取得平衡。
常用场景
经典使用场景
在非传染性疾病流行病学研究中,非洲成人超重患病率数据集(NCD_BMI_25A)被广泛用于构建时空分布预测模型。基于47个非洲国家1990至2022年间年龄标准化后的身体质量指数≥25的人口比例数据,研究者可借助该数据集监督学习模型(如随机森林、梯度提升树或时间序列Transformer),捕捉超重率在国家与年度维度上的演变规律。数据集提供性别分层(SEX_BTSX、SEX_FMLE、SEX_MLE)及置信区间字段,使得分性别建模与不确定性量化成为可能。常见的任务包括回归预测(直接估计逐年超重率)与分类(划分高风险阈值区间),从而为非洲区域性营养转型与肥胖流行趋势研究提供定量基准。
解决学术问题
该数据集系统性地解决了非洲超重流行病学研究中长期存在的两个学术困境:一是空间覆盖不全,以往全球健康数据库对非洲地区的数据稀疏且年代不一,二是标准不统一,各国统计口径相异导致跨区域比较困难。通过整合WHO全球卫生观察站(GHO)的统一指标代码NCD_BMI_25A,该数据集提供了47国在32年间可比的年龄标准化超重率,使学者能够严谨检验营养转型理论在非洲大陆的普适性——即随着城市化推进和经济增,超重率是否在短时间内显著攀升。同时,数据中包含的置信区间字段使得建模者能在统计推中断中量化估计的不确定性,避免因小样本波动产生假阳性趋势,为后续政策干预阈值研究(比如识别超重率年增速超过0.5%的热点国家)奠定方法论基础。
实际应用
在实际公共卫生领域,该数据集支撑着非洲各国卫生部及WHO AFRO区域办事处的循证决策流程。通过监测各国超重率的长期走势,决策者可以识别出需要优先部署社区营养干预的重点区域——例如对年增速持续超过1.5%的国家(如南非、博茨瓦纳)专项安排健康教育计划与含糖饮料税收政策。数据集的时间跨度从1990年延伸至2022年,覆盖了非洲经济快速增长期与食品安全转型期,因此特别适用于评估既往政策效果:比如比较2005年前后不同国家实施食品标签法规前后的超重率变化斜率,从而为《世卫组织终止儿童肥胖委员会》在非洲的行动计划提供数据驱动力。此外,性别分层字段助力设计差异化干预方案——针对女性超重率显著高于男性的国家,侧重推广产后体重管理与社区运动团体建设。
数据集最近研究
最新研究方向
当前,关于非洲成年人超重患病率(BMI≥25)的纵向数据正被广泛用于全球非传染性疾病(NCD)负担的时空建模与健康不平等分析。结合世界卫生组织全球健康观察站(GHO)提供的1990至2022年间47个非洲国家的标准化估计值与置信区间,研究者得以开展跨性别、跨年代的区域健康转型评估。前沿方向聚焦于构建机器学习驱动的预测模型,以揭示城市化、营养转型与肥胖流行之间的动态关联,并量化超重对非洲心血管疾病与糖尿病风险的影响。该数据集在非洲公共卫生政策制定中具有关键意义,其标准化的结构与长期覆盖能力,为监测可持续发展目标(SDGs)中与健康相关的指标、评估干预措施的有效性提供了可靠的数据基础,亦推动了数据稀疏地区健康数据治理与开放科学的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务