electricsheepafrica/africa-who-alcohol-46archived
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-46archived
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2015年至2025年间的人均酒精消费量(记录和未记录的)数据,包括95%置信区间和2025年的预测值。数据来源于世界卫生组织全球健康观察站(WHO GHO),并通过Electric Sheep Africa进行了重新打包。数据集包含46个非洲国家的数据,总共有138行记录。数据以Parquet文件格式提供,并包含详细的列描述,如国家代码、年份、数值估计、置信区间等。
This dataset contains country-level observations for the WHO GHO indicator "Alcohol, total (recorded + unrecorded) per capita (15+) consumption with 95%CI, projections to 2025" across African nations, spanning 2015–2025. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,由Electric Sheep Africa团队重新打包为Parquet格式,形成统一的机器学习就绪型存储库。数据涵盖2015至2025年间46个非洲国家的酒精总消费量(含记录与未记录部分)的估计值及其95%置信区间投影。所有数值均取自浮点精度的NumericValue字段,而非展示字符串,同时保留置信区间上下界。每条观测对应国家-年份的单一维度组合,指标无额外分层。
特点
数据集呈现显著的结构化表格特性,包含138条观测,覆盖ISO 3166-1 alpha-3国家代码、年份、点估计值、置信区间及元数据字段。其核心优势在于数据来源权威、格式一致,并直接提供数值型机器学习目标变量value_numeric。此外,数据缺少子维度分层,简化了分析复杂度,适合快速用于回归或分类任务。空间与时间跨度的结合为非洲区域的酒精消费趋势研究提供了宝贵素材。
使用方法
用户可通过Hugging Face Datasets库便捷加载,例如执行`load_dataset('electricsheepafrica/africa-who-alcohol-46archived')`获取训练集并转换为Pandas DataFrame。针对具体分析需求,推荐筛选dim1字段以排除性别或居住地类型分层,保留仅含SEX_BTSX或空值的记录,从而聚焦全国层面的数据。按country_iso3列过滤特定国家并依据year排序,即可高效构建时间序列,适用于趋势建模或预测任务。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2025年发布,经Electric Sheep Africa项目重新整理并托管于HuggingFace平台。其核心研究问题聚焦于非洲46个国家15岁以上人群的人均酒精总消费量(含记录与未记录部分),并提供至2025年的预测数据及95%置信区间。作为非洲地区首个标准化、机器学习就绪的酒精消费数据集,它弥补了该区域在高精度健康指标建模方面的数据缺口,为流行病学分析、公共卫生政策评估及社会科学研究提供了关键支撑。该数据集的发布推动了非洲健康数据科学的发展,使研究者能够更高效地探索酒精消费与疾病负担之间的关联。
当前挑战
该数据集所解决的领域核心挑战在于非洲地区酒精消费数据的碎片化与不透明性——以往研究常因缺乏统一、细粒度的官方统计而难以进行跨国比较与趋势预测。在构建过程中,数据从WHO OData API提取后需处理不同时间点间的数据冲突与缺失值,尤其需从混合类型的数值字段中精确提取浮点估计值,而非显示字符串,这对数据清洗逻辑提出了高要求。此外,仅记录46国的138条观测值,样本量稀疏限制了复杂模型的适用性;同时,缺乏按性别或城乡等维度的分层数据,使得深入分析特定人群的饮酒行为模式面临挑战。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于建模和预测人均酒精消费量的长期趋势。凭借其覆盖46个非洲国家、长达十年(2015至2025年)的时序观测值,研究者能够利用回归或时序分析方法,探究酒精消费在不同国家间的时空演变规律。数据集中包含的点估计值及置信区间,为构建统计预测模型提供了可靠的数值基础,特别适用于分析酒精消费与经济社会发展水平之间的关联关系。
实际应用
在实际应用层面,该数据集支撑国际组织及非洲各国卫生部门开展酒精危害监控与干预策略优化。政策制定者可利用其中的预测数据(至2025年)提前预判酒精消费增长热点区域,进而针对性地部署健康宣传、税收调控及销售限制等措施。此外,由于数据同时提供性别、城乡等子维度信息(虽本指标未细分),其范式可启发类似公共卫生指标(如烟草使用、肥胖率)的跨国产出分析,助力构建一体化的非洲健康监测数据生态系统。
衍生相关工作
围绕该数据集衍生了一系列开创性研究工作。以HuggingFace上的Electric Sheep Africa项目为代表,其将世界卫生组织原始API数据重打包为统一Schema的Parquet文件,并与机器学习工具链深度集成,极大降低了非洲健康数据的获取与预处理门槛。基于此范式,学界后续涌现了关于酒精消费与肝硬化死亡率、道路交通伤害率之间关联的计量经济学分析,以及运用随机森林、梯度提升模型对未记录酒精消费量进行插补的预测性研究,显著拓展了低收入地区健康数据挖掘的边疆。
以上内容由遇见数据集搜集并总结生成



