electricsheepafrica/africa-who-alcohol-0000001821
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001821
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“15岁以上人群未记录的人均酒精消费量(以纯酒精升计),三年平均值”(SA_0000001821)在非洲国家的国家级观察数据,时间跨度为2000年至2022年。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,包含数值估计、置信区间等信息。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Alcohol, unrecorded per capita (15+) consumption (in litres of pure alcohol), three-year average" (`SA_0000001821`) across African nations, spanning 2000–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)的OData API,聚焦于非洲地区15岁及以上人均未记录酒精消费量(以纯酒精升数计)的三年期平均值。数据经Electric Sheep Africa项目重新打包,以Parquet格式存储并遵循统一架构。原始数值从API返回的浮点精度字段'NumericValue'中提取,而非显示字符串,同时保留了可获取的置信区间边界值(value_low、value_high)。数据集覆盖了2000至2022年间46个非洲国家的1058条观测记录,仅包含WHO AFRO区域内的国家。
使用方法
使用该数据集时,可通过HuggingFace Datasets库的load_dataset函数直接加载,例如`load_dataset("electricsheepafrica/africa-who-alcohol-0000001821")`,返回一个包含训练集(即全部数据)的Dataset对象,并支持转换为Pandas DataFrame。用户可按需筛选子集,例如通过`df[df["country_iso3"] == "KEN"].sort_values("year")`获取肯尼亚的时间序列,或通过过滤dim1字段中的'BTSX'后缀来提取全国层面(两性合计)的数据。该数据集无需额外预处理,即可用于时间序列分析、国家间比较或作为非洲健康相关建模任务的基础数据源。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2022年发布,并由Electric Sheep Africa团队重新封装为机器学习就绪格式。其核心研究问题聚焦于非洲国家15岁以上人群未记录的人均酒精消费量(以纯酒精升数计,三年平均值),旨在揭示非洲地区酒精消费的隐性负担。作为GHO指标SA_0000001821的标准化表述,该数据集覆盖2000年至2022年间46个非洲国家的1058条观测记录,为流行病学、公共卫生政策及机器学习驱动的健康指标预测提供了关键数据基础。在非洲大陆酒精相关疾病负担日益严峻的背景下,该数据集通过统一schema的Parquet格式,显著降低了多国比较及时间序列分析的数据整合门槛,对推动非洲区域健康决策的数据化转型具有深远影响。
当前挑战
该数据集所解决的领域问题在于量化非洲国家未记录酒精消费这一长期被忽视的健康风险因素,传统调查方法难以捕捉非正规渠道消费数据,而该数据集通过WHO标准化统计框架填补了这一空白。构建过程中面临的挑战包括:多国数据来源的异质性导致年份缺失与置信区间不一致(仅部分观测含value_low/value_high字段);原始OData API中NumericValue字段需从显示字符串中分离,增加了数据清洗复杂度;此外,跨23年时间跨度中部分国家统计口径的潜在变化需谨慎处理,以确保机器学习任务中时间序列的连续性。数据集的稀疏性(部分国家仅有零星年份记录)进一步要求模型具备处理缺失值的鲁棒性,从而在区域健康预测中实现可靠推断。
常用场景
经典使用场景
该数据集汇聚了2000年至2022年间46个非洲国家的未记录酒精人均消费量(15岁以上,以纯酒精升数计,三年移动平均值),为研究非洲地区酒精消费模式提供了标准化的跨时空面板数据。在典型的学术应用中,研究者可利用该数据构建回归模型,考察经济发展水平、城市化进程或公共卫生政策与未记录酒精消费之间的关联。由于数据涵盖多个国家和长达二十余年的时间跨度,其在纵向趋势分析与跨国比较研究中具有不可替代的价值,尤其适合用于评估非洲区域内酒精消费的时空演变规律及其社会经济驱动因素。
解决学术问题
该数据集精准回应了非洲地区酒精消费研究中长期存在的核心困境——官方记录数据往往因非法生产、跨境走私及家庭自酿等非正式渠道的存在而严重低估实际消费水平。通过聚焦于'未记录'这一关键维度,该数据为揭示非洲酒精消费的真实全貌提供了量化基础,有助于学者区分正式市场与非正式市场对公共健康的不同影响。其引入的分析意义在于,它使得量化评估非洲各国酒精相关疾病负担成为可能,并为世界卫生组织在全球酒精控制政策框架中制定针对性的干预策略提供了不可或缺的经验证据。
实际应用
在实际应用层面,该数据集是公共卫生决策与政策制定的重要支撑工具。各国卫生部门可基于这些未记录酒精消费数据,识别出非法酿酒活动猖獗的区域与年份,从而优化监管资源的配置与执法重点。同时,非政府组织与国际机构(如世界卫生组织非洲区域办事处)可利用该数据集设计针对性的社区干预项目,例如在消费量异常高的地区推广酒精危害教育或推动税收政策改革。此外,数据中附带的高置信区间为风险评估模型的构建提供了概率化输入,使得模拟不同政策情景下的健康收益更具现实意义。
数据集最近研究
最新研究方向
在公共卫生与全球健康治理的前沿领域,该数据集聚焦于非洲地区未记录酒精消费的纵向追踪,为评估非正规酒精市场对疾病负担的隐性影响提供了关键数据支撑。当前研究正借助这些年度面板数据,构建跨国的时空模型,以揭示未记录酒精消费与肝硬化、心血管疾病等非传染性疾病发生率之间的关联,并量化其对可持续发展目标中健康指标的冲击。该数据集跨越2000至2022年的长周期覆盖,使得研究者能够分析经济转型、政策干预及文化变迁如何塑造未记录酒精的消费模式,从而为世界卫生组织调整酒精控制策略、设计针对弱势群体的减害干预措施提供了实证基础。
以上内容由遇见数据集搜集并总结生成



