electricsheepafrica/africa-who-sugar-content-of-beverage
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-sugar-content-of-beverage
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标饮料中糖含量(g/100ml)(TAXBEV_SUGARCONTENT)的国家级观测数据,时间跨度为2022年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Sugar-content of beverage (g/100ml) (TAXBEV_SUGARCONTENT) across African nations, spanning 2022–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集来源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家饮料含糖量(g/100ml)这一关键健康指标。数据筛选了WHO非洲区域(AFR)的41个国家,时间跨度为2022年至2024年,共计71条观测记录。所有数值均从API返回的浮点精度字段`NumericValue`中提取,而非显示字符串,并尽可能地保留了置信区间上下限。数据被重新打包为Parquet格式,并统一了字段模式,形成了可直接用于机器学习的数据集。
特点
这一数据集具有清晰的结构和丰富的维度信息。每个观测条目都包含了国家代码、年份、数值估计及其置信区间,以及可能的细分维度如性别或居住地类型。饮料类型被限定为非酒精饮料(BEVERAGETYPE_NONALCOHOLIC),确保了指标的一致性。当指标按性别或年龄组分层时,每一国别与年份的组合下会产生多条记录,用户可通过`dim1`和`dim2`字段进行筛选或聚合,为深入分析提供了灵活性。
使用方法
使用者可通过Hugging Face的`datasets`库直接加载该数据集,例如使用`load_dataset("electricsheepafrica/africa-who-sugar-content-of-beverage")`命令。加载后可方便地转换为Pandas DataFrame进行后续操作。若需聚焦于全国层面的综合数据,可过滤出`dim1`字段为`SEX_BTSX`(男女合计)或缺失值的行。若要分析某一国家的时间序列,则依据`country_iso3`列筛选该国数据并按年份排序即可。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)在2022至2024年间收集,并由Electric Sheep Africa团队整理后发布在HuggingFace平台。旨在系统性地记录非洲地区非酒精饮料的糖含量(单位:g/100ml),为健康政策制定与机器学习研究提供标准化数据支撑。其核心研究问题聚焦于非洲各国饮料糖分含量的分布与趋势,以期辅助公共卫生决策,遏制因高糖摄入引发的非传染性疾病。数据集覆盖41个非洲国家、总计71条观测记录,凭借其权威来源与结构化格式,对全球健康监测、营养流行病学以及人工智能驱动的健康预测模型具有重要参考价值。
当前挑战
该数据集面临的领域挑战包括:非洲大陆含糖饮料消费与糖尿病、肥胖等代谢性疾病的关联分析常因数据稀疏而受限,本数据集虽提供关键指标,但仅71条记录难以捕捉国家内部细粒度差异,且未涵盖非酒精饮料的全面分类。构建过程中遇到的挑战主要来自WHO原始数据接口的异步更新与字段不统一,需要将不同年份、不同维度的观测值(如性别、城乡分层的置信区间)重排为一致的Parquet格式,同时保留原始NumericValue字段以避免显示字符串的精度损失,这增加了数据清洗与质量控制的复杂度。
常用场景
经典使用场景
在非洲公共卫生与营养科学领域,含糖饮料的糖含量数据是评估饮食健康风险、监测糖摄入量变化趋势的核心指标。该数据集汇聚了2022至2024年间41个非洲国家的含糖饮料糖含量(克/百毫升)的国家级观测值,为研究者提供了标准化、机器可读的纵向数据。其最经典的使用场景是构建预测模型,例如基于年份和国家特征对含糖饮料中糖含量进行回归分析,或对含糖饮料类型进行多分类判别,从而揭示非洲大陆含糖饮料生产与消费的时空演化规律。
衍生相关工作
该数据集的发布催生了一系列富有创见的学术探索。在数据工程层面,它作为Electric Sheep Africa非洲数据统一集合的组成部分,启发了多项关于非洲多源异构健康数据自动化清洗与集成框架的研究。在应用统计领域,学者们基于该数据设计了含糖饮料糖含量与政府糖税强度的关联分析模型,揭示了税收政策对饮料成分调整的间接影响。流行病学研究中,该数据被整合进多国饮食暴露评估模型,与心血管疾病发病率、体重指数等健康指标联动分析,推动了环境与健康交叉科学的实证进展。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区含糖饮料中糖含量(g/100ml)的监测与多维度分析,紧密关联全球非传染性疾病(NCDs)防控与健康税收政策的前沿研究。鉴于世界卫生组织(WHO)将含糖饮料高消费列为肥胖、糖尿病及心血管疾病的关键风险因子,该数据集为评估非洲各国实施含糖饮料税(SSB tax)等财政干预措施的效果提供了量化基准。当前研究热点在于利用2022至2024年覆盖41个非洲国家的面板数据,结合BEVERAGETYPE等子维度,探究糖含量与消费趋势、年龄分布及城乡差异的关联。这一资源有力推动了机器学习在公共卫生领域的应用,例如通过回归模型预测政策对糖摄入量的影响,或构建分类模型识别高负担群体。其意义在于,它为欠发达地区基于证据的饮食干预策略提供了可复现的分析框架,助力WHO与非盟实现减少过早死亡、遏制肥胖率攀升的全球目标。
以上内容由遇见数据集搜集并总结生成



