electricsheepafrica/africa-who-sales-of-beer-in-1000s-hectolitres
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-sales-of-beer-in-1000s-hectolitres
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2009年间啤酒销售量(以千升为单位)的观测数据,数据来源于WHO Global Health Observatory OData API,并被重新打包为Parquet文件。数据集覆盖45个非洲国家,共437行数据,每行数据包括国家代码、年份、数值估计值、置信区间等信息。数据集是Electric Sheep Africa项目的一部分,旨在为机器学习提供统一的非洲数据资源。
This dataset contains country-level observations for the WHO GHO indicator "Sales of beer in 1000s hectolitres" (`SA_0000001678`) across African nations, spanning 2000–2009. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区2000至2009年间啤酒销量(以千升为单位)的国别观测数据。原始数据经过精心提取与转换,摒弃了展示字符串,直接采用高精度的数值型字段(NumericValue)作为核心指标,并以Parquet格式统一封装,确保数据结构一致、便于机器学习任务直接调用。数据集还整合了置信区间上下界(value_low, value_high)等辅助信息,增强了数据的统计完整性。
特点
数据集覆盖45个非洲国家,共437条记录,时间跨度十年,构成了一个紧凑但高度集中的时空面板。其独特之处在于仅包含单一指标(SA_0000001678),无子维度分层,每一行对应一个国家与年份的唯一观测值,简化了跨域分析与建模的复杂性。此外,数据均来源于WHO AFRO区域,并附有详细的元数据列(如国家ISO代码、WHO区域、更新时间戳),为时空序列分析与卫生经济研究提供了可靠基础。
使用方法
用户可通过HuggingFace的datasets库便捷加载数据,执行`load_dataset()`即可获得训练集格式的DataFrame。使用中,推荐首先利用`dim1`字段筛选出“两性合计”(SEX_BTSX)或缺失维度值的全国层面数据,以消除性别或居住区域分层带来的偏差。随后,可基于`country_iso3`与`year`字段进行时间序列分析、国家间对比或构建回归预测模型,数据规模与结构使其尤为适合轻量级统计教学与非洲公共卫生指标探索。
背景与挑战
背景概述
非洲地区的酒精消费模式与公共卫生政策紧密交织,而啤酒作为该区域消费量最大的酒精饮料之一,其销售数据是评估酒精相关健康负担与经济发展关联的关键指标。在此背景下,由世界卫生组织(WHO)全球卫生观察站(GHO)创建、并经Electric Sheep Africa团队重新整理的数据集“Africa — WHO GHO: Sales of beer in 1000s hectolitres”应运而生。该数据集于2009年首次发布,聚焦2000至2009年间45个非洲国家的啤酒销售数据,以千升为单位记录,共计437条观测值,旨在为机器学习驱动的非洲公共卫生研究提供标准化、可复用的数据基础。作为WHO开放数据计划的一部分,它填补了非洲大陆在酒精消费量化分析领域的高质量数据空白,为流行病学建模、政策评估及跨区域比较研究提供了重要支撑,对推动非洲健康指标的数字化转型具有里程碑意义。
当前挑战
该数据集所应对的领域挑战在于,非洲地区酒精消费与健康结果间的复杂关联常因数据碎片化、统计口径不一而难以精准建模,啤酒销售数据作为替代指标,其时间序列短(仅十年)且国家间记录缺失,影响了长期趋势分析与预测模型的稳健性。构建过程中,团队面临多重障碍:原始WHO GHO数据以ODATA API形式分布,需手动提取并统一为Parquet格式以兼容机器学习流水线;部分国家啤酒销售统计可能含非正规市场误差,而置信区间字段(value_low、value_high)的稀疏分布进一步限制了不确定性的量化;此外,45国覆盖虽广,但城乡与性别维度细分不完整,导致空间异质性分析受限,要求后续处理中巧妙利用维度编码(如dim1)进行亚群聚合以减少偏差。
常用场景
经典使用场景
在公共卫生与营养流行病学的研究版图中,酒精消费数据是揭示人群健康风险与行为模式变迁的关键拼图。非洲大陆作为全球酒精市场增速显著的地区之一,其啤酒销售数据为理解区域饮酒文化、监测非传染性疾病风险因素提供了量化窗口。该数据集以WHO全球健康观察站官方指标为核心,收录了2000至2009年间45个非洲国家的啤酒销量(单位:千百升),经统一清洗与格式化为Parquet文件,可直接用于机器学习模型的训练与评估。研究者通常将其作为面板数据,在时间序列预测、跨国家比较分析或作为社会经济模型的回归特征中发挥基础作用,是探索非洲地区酒精消费驱动因素与公共卫生后果的基石性资源。
实际应用
在现实世界的应用层面,该数据集为跨国啤酒企业、健康政策制定者及国际发展组织提供了双向的价值锚点。对于百威英博或喜力等深耕非洲市场的酒业巨头而言,各国啤酒销量历史趋势是制定区域供应链布局、营销投入策略与价格弹性测算的核心输入。从公共卫生角度,世界卫生组织及非洲疾病预防控制中心可借助这些数据追踪特定国家酒精消费的时空演变,用于监测《减少有害使用酒精全球战略》在非洲的执行进展。同时,保险精算师与风险建模公司也会将其整合进人口健康风险评价模型,以量化酒精相关疾病对医疗支出的潜在冲击,指导保险产品的设计定价。
衍生相关工作
基于该数据集的开放性结构与规范化的时间—国家双重索引,研究者已围绕它孵化出多项衍生工作。一方面,它与WHO GHO系列的烟草销量、软饮料消费等指标拼接,构建了非洲非酒精饮料与酒精饮料消费结构变迁的宏观面板,用于分析含糖税对酒类替代效应的影响。另一方面,该数据集中包含的置信区间字段(value_low与value_high)启发了概率性因果推断方法在生态学数据中的应用探索,衍生出融合不确定性度量的贝叶斯时空模型。此外,作为Electric Sheep Africa数据集合的典型范例,其在标准化元数据管理、Parquet格式优化与HuggingFace Datasets集成方面的实践,也为后续非洲官方统计数据的开源提供了可复用的工程模板。
以上内容由遇见数据集搜集并总结生成



