five

electricsheepafrica/africa-who-alcohol-0000001404

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001404
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标15岁以上饮酒者人均纯酒精消耗量(升)的三年平均值(SA_0000001404)在非洲国家的国家级观察数据,时间跨度为2000年至2020年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Alcohol, drinkers only per capita (15+) consumption in litres of pure alcohol, three-year average (SA_0000001404) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区15岁及以上饮酒者人均纯酒精消费量(三年平均值)这一关键健康指标。数据以Parquet格式重新封装,确保结构一致且易于机器学习流水线直接使用。所有数值字段均采用浮点精度的`NumericValue`,而非展示字符串,并尽可能包含置信区间上下界。数据集覆盖2000年至2020年间45个非洲国家的2835条观测记录,仅保留WHO非洲区域(AFRO)的条目,并按照国家、年份及性别等子维度进行分层组织。
特点
该数据集最显著的特点在于其统一化的架构与对非洲健康数据的针对性覆盖。每一条记录都包含了标准化的指示代码、ISO国家代码、年份以及核心数值指标,同时保留了WHO原始数据中的展示字符串、更新时间和完整的维度信息。性别分层(男女及两性合计)使得跨性别分析成为可能。此外,数据集提供了与HuggingFace Datasets库无缝集成的接口,支持直接加载并转换为Pandas DataFrame,极大降低了数据探索与建模的门槛。
使用方法
用户可通过`load_dataset`函数从HuggingFace一键加载该数据集,随后转换为Pandas DataFrame进行灵活操作。如需获取两性合计的国家层面数据,可依据`dim1`字段筛选以`_BTSX`结尾或为缺失值的行。对于特定国家的时间序列分析,则可按`country_iso3`过滤并依`year`排序。数据集既适用于分类任务,也可作为回归任务的预测目标,其清晰的模式和丰富的子维度为研究人员提供了多样化的分析视角。
背景与挑战
背景概述
在全球公共卫生领域,酒精消费的监测与评估是制定有效干预政策的核心环节,尤其对非洲大陆而言,快速的社会经济转型与城市化进程正深刻改变着居民的饮酒模式。由世界卫生组织全球卫生观察站(WHO GHO)发布的指标SA_0000001404,专注于15岁以上饮酒者人均酒精消费量(以纯酒精升数计,三年滑动平均),为评估酒精相关疾病负担、指导区域健康战略提供了关键依据。该数据集由Electric Sheep Africa团队整合并发布于2020年后,覆盖45个非洲国家从2000年至2020年的2,835条观测记录,涵盖了性别分层信息与置信区间。作为首个以机器学习就绪格式(Parquet)统一呈现的非洲酒精消费面板数据,该集填补了区域健康数据在开放性与可复现性方面的空白,正逐步成为非洲公共卫生计量经济学与流行病学建模的基础资源。
当前挑战
该数据集所面临的挑战可从领域问题与构建过程两个维度展开。在领域层面,酒精消费数据固有的测量误差与报告偏倚,尤其是自报消费量与实际摄入量之间的鸿沟,长期困扰着全球酒精负担模型的准确性。此外,非洲多数国家缺乏连续的死亡统计与疾病登记系统,使得基于消费数据的归因分析难以获得高质量基准验证。在构建过程中,该数据集主要依赖WHO GHO的OData API进行标准化提取,但不同国家对同一指标可能存在定义差异(例如饮酒者标准),而原始数据中缺失值的高频出现又要求实现精密的插补策略。同时,性别与地域等维度的分层信息在时间序列中并非均匀分布,导致时序建模时需设计鲁棒的聚集与缺失处理机制。更关键的是,三年滑动平均虽平滑了年度波动,却也掩盖了短期冲击(如政策干预或疫情),增加了因果推断的建模复杂性。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集常用于分析非洲各国15岁以上饮酒者的人均纯酒精消费量及其长期趋势。研究人员借助该数据集构建时间序列模型,评估不同国家、性别维度的酒精消费模式,并揭示饮酒行为与经济发展、文化背景之间的关联。其经典用法包括借助回归分析探究酒精消费与健康指标(如肝病发病率、交通事故死亡率)的统计关系,或是利用分类算法预测高消费风险国家。数据集提供的置信区间信息进一步增强了统计推断的可靠性,使其成为非洲区域酒精政策研究的基础数据源。
实际应用
在公共卫生政策制定与干预实践中,该数据集为非洲各国卫生部门及国际组织提供了可量化的决策依据。例如,通过分析各国人均酒精消费的年度变化,政策制定者能够识别酒精滥用风险上升的国家,优先部署税收调节、广告限制或健康教育项目。世界卫生组织非洲区域办事处可利用其时间序列数据监测《减少有害使用酒精全球战略》的执行效果。此外,保险与健康科技公司可结合该数据集构建风险预测模型,评估特定人群的健康保险成本或设计个性化戒酒干预方案。
衍生相关工作
基于该数据集,研究者已衍生出多项拓展工作。一方面,有学者将其与国家健康调查数据或疾病负担数据库(如GBD)整合,构建多层次模型揭示酒精消费与心血管疾病、肝硬化等病症的剂量-反应关系。另一方面,该数据集被用于训练机器学习预测器,结合社会经济变量(如GDP、城镇化率)预测未来五年非洲各国的酒精消费轨迹。部分团队还利用其性别分层特征,专门分析了女性饮酒率上升对母婴健康的潜在影响,推动了性别敏感的酒精政策研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作