electricsheepafrica/africa-who-alcohol-00archived
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-00archived
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“酒精,记录的人均(15岁以上)消费量(以纯酒精升计)”在非洲国家的国家级观察数据,时间跨度为1961年至2016年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Alcohol, recorded per capita (15+) consumption (in litres of pure alcohol)" (`SA_0000001400_ARCHIVED`) across African nations, spanning 1961–2016. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO),专注于非洲地区15岁及以上人群的纯酒精人均消费量记录,数据以升为单位,时间跨度覆盖1961年至2016年。通过直接调用WHO GHO的OData API,原始数据被提取并重新封装为Parquet格式文件,采用统一的字段结构,确保数据的一致性和可读性。所有数值均来源于高精度的浮点型字段NumericValue,而非显示字符串,并保留了置信区间上下限。数据集囊括了46个非洲国家的15,000条观测记录,每个观测条目均包含国家代码、年份、区域信息以及多种酒精类型的分层维度,如啤酒、烈酒、葡萄酒及总计等。
特点
此数据集的核心优势在于其高度结构化的多维分层架构,每个国家的年度数据可依据酒精类型、性别或居住区域等维度进行细分,为深入分析非洲国家酒精消费模式提供了精细化的视角。数据字段设计兼顾科学严谨性与实用性,既包含用于机器学习建模的浮点型点估计值,也提供了置信区间和格式化显示字符串,便于不同场景下的应用。该数据集属于Electric Sheep Africa系列,旨在构建一个统一、可直接用于机器学习训练的非洲数据仓库,具有跨国家、长时序、多维度且格式一致的特点,显著降低了研究者在数据清洗与整合方面的负担。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,仅需一行代码即可将数据转换为Pandas DataFrame格式进行后续分析。针对特定分析需求,可通过筛选dim1字段中的性别标识符来提取全国范围或特定性别的数据,例如过滤出'SEX_BTSX'以获取双性别人群的数据。研究时序趋势时,可依据国家代码和年份字段对数据进行排序,从而快速追踪单一国家的酒精消费变化。此外,用户可根据研究目标,在dim1和dim2维度上进行灵活的分组聚合,或直接利用value_numeric字段进行回归与分类任务的机器学习建模。
背景与挑战
背景概述
酒精消费作为影响全球公共健康的关键风险因素,其时空分布特征与区域差异一直是流行病学与卫生政策研究的重要课题。世界卫生组织(WHO)全球健康观察站(GHO)系统性地收录了各国酒精消费数据,其中‘非洲地区人均酒精消费量(15岁以上,纯酒精升数)’指标由Electric Sheep Africa团队于近期进行整合与结构化处理,形成面向机器学习的标准化数据集。该数据集涵盖1961至2016年间46个非洲国家的观测记录,包含人均总量及啤酒、葡萄酒、烈酒等细分类型,并附置信区间等可量化不确定性信息,为探究非洲大陆酒精消费模式的长周期演变与区域异质性提供了可靠数据基石。作为WHO官方数据在机器学习领域的首次系统性转化,该数据集降低了非洲健康数据的使用门槛,有力推动了对酒精相关疾病负担的精准建模与循证干预设计。
当前挑战
该数据集面临的核心挑战在于如何应对健康监测数据固有的质量缺陷与复杂性。其一,非洲多国在1960至2016年间经历了剧烈的统计体系变动与冲突动荡,导致部分年份数据缺失或异常值频现,对时间序列建模的连续性构成显著干扰。其二,数据集整合了酒精类型(ALCOHOLTYPE)与性别(dim1)等多维度分层信息,不同国家与年份的维度的覆盖率参差不齐,如何在保留数据原真性的同时实现跨时间维度的有效聚合是建模难题。其三,以置信区间形式提供的不确定性在传统预测任务中常被忽略,亟需开发能利用异方差信息的概率模型。此外,指标代码标注为‘ARCHIVED’暗示WHO已更新标准,而本数据集止于2016年,后续版本衔接与迁移学习策略的制定同样构成了实践层面的技术壁垒。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集常被用于分析非洲国家人均酒精消费的时空演变规律。研究者可借助其覆盖46国、跨越半个多世纪的观测值,结合酒精类型等子维度,探究不同国家在啤酒、烈酒等消费结构上的异质性。数据集为构建面板回归或时间序列模型提供了标准化基础,尤其适合评估区域酒精消费趋势及社会经济因素的交互影响。
实际应用
在实际应用中,该数据集为世界卫生组织及各国卫生部门制定酒精管控策略提供证据。例如,模型可揭示哪些国家的人均消费激增,从而指导针对性税收或促销限制政策。同时,数据被整合至疾病负担测算工具中,用于估算酒精归因的伤残调整生命年,支持非传染性疾病预防计划的资源分配。
衍生相关工作
基于该数据涌现了多项代表性衍生工作,如利用机器学习方法预测非洲国家未来十年酒精消费轨迹,或将其与心血管疾病死亡率数据耦合,揭示消费阈值假设。另一类经典工作聚焦于社会经济分层,结合世界银行收入分类,量化不同发展水平下酒精消费的长期弹性。这些成果深化了对非洲健康转型的理解,并为数据驱动决策树立了范例。
以上内容由遇见数据集搜集并总结生成



