electricsheepafrica/africa-who-alcohol-0000001400
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001400
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了世界卫生组织全球健康观察站(WHO GHO)关于非洲国家15岁以上人均酒精消费量(按饮料类型分类,以纯酒精升数计)的国家级观察数据,时间跨度为1961年至2022年。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了46个非洲国家,总行数为13,653行,并包含子维度(如酒精类型)和详细的列描述(如国家代码、年份、数值估计等)。
This dataset contains country-level observations for the WHO GHO indicator "Alcohol, recorded per capita (15+) consumption (in litres of pure alcohol), by beverage type" (`SA_0000001400`) across African nations, spanning 1961–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,由Electric Sheep Africa项目团队系统化采集与重新封装而成。构建过程中,团队将原始API返回的JSON数据结构化转换为统一的Parquet文件格式,并精简为一致的字段模式。所有数值均直接提取自浮点精度的`NumericValue`字段,而非展示字符串,确保数据精度。同时,数据集保留了可用的置信区间上下界(`value_low`和`value_high`),并依据WHO AFRO区域代码筛选出非洲46国的观测记录,覆盖1961年至2022年共13,653行数据。
使用方法
数据集可直接通过Hugging Face的`datasets`库加载,使用`load_dataset("electricsheepafrica/africa-who-alcohol-0000001400")`一行命令即可获取,并支持转换为Pandas DataFrame进行后续处理。研究者可通过过滤`dim1`字段中后缀为`_BTSX`的数值获取性别总体水平的数据,或按`country_iso3`字段对特定国家(如肯尼亚,代码KEN)进行时间序列分析。字段设计兼容分类与回归任务,`value_numeric`适合作为监督学习的目标变量,而`indicator_code`、`year`等字段可作为特征或分组依据,便于构建预测模型或趋势分析。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2022年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的公开数据,聚焦于非洲46个国家1961至2022年间人均(15岁以上)纯酒精消费量,并按啤酒、葡萄酒、烈酒及其他酒精饮料等品类细分。数据集以统一的机器学习就绪格式重新打包,提供了数值估计值、置信区间及分层维度(如性别、居住区域),旨在推动非洲健康领域的数据驱动研究。作为首个系统性整合非洲大陆长期酒精消费记录的综合资源,该数据集为跨国家时间序列分析、公共卫生政策评估及流行病学建模提供了关键支撑,在监测非传染性疾病风险因素方面具有重要学术与应用价值。
当前挑战
该数据集所解决的领域问题在于,非洲地区长期缺乏高质量、标准化且机器可读的酒精消费数据,阻碍了区域性健康风险建模与政策干预效果评估。构建过程中的挑战包括:原始WHO数据以多维度、非结构化形式存储,需清洗并统一为原子化记录,处理不同年份间的度量变更及缺失值;各国报告周期不一致导致时间序列存在间隙,且部分可靠置信区间缺失需标记;整合46个国家长达62年的数据时,需应对编码差异(如ISO3国家代码与WHO区域标识的映射)、多重分层(性别、居住类型等)造成的冗余,以及确保与原有GHO API的语义一致性。
常用场景
经典使用场景
该数据集以非洲46个国家1961年至2022年间人均纯酒精消费量为核心指标,按啤酒、葡萄酒、烈酒及其他酒类进行细分,适用于多种经典的数据分析任务。研究者常将其用于时间序列预测,通过构建回归模型或分类模型来揭示酒精消费趋势与人口、经济发展水平之间的关联。此外,该数据集的标准化Parquet格式和一致的数据模式使其成为机器学习入门与基准测试的理想选择,尤其适合进行跨区域比较或探索酒类消费结构随时间的演变规律。
解决学术问题
数据集旨在解决非洲地区酒精消费数据稀缺、分散且缺乏标准化的学术难题,为流行病学、公共卫生经济学及成瘾行为研究提供了高颗粒度的定量基础。它支持研究者量化不同酒类消费模式与肝硬化、心血管疾病等健康结局之间的剂量-反应关系,也能够协助构建预测模型评估酒精政策干预(如税收或销售禁令)的潜在效果。该数据的开放获取特性打破了以往依赖商业或局部调查的数据壁垒,推动了非洲大陆范围内的比较性研究和系统评价。
实际应用
在实际应用层面,该数据集是非洲各国卫生部门、世界卫生组织及非政府组织进行健康风险评估和资源分配的重要工具。公共卫生分析师可据此绘制区域性酒精消费热力图,识别高危群体并设计针对性的教育宣传干预。同时,该数据可融入食品酒类行业市场调研,辅助企业制定非洲市场的产品投放策略;也为国际援助机构评估酒精相关疾病负担、优化医疗资源配置提供了可量化的决策支持。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区人均酒精消费量的长期追踪(1961-2022年),覆盖46国及不同酒饮类型,为探索酒精消费与公共卫生政策之间的动态关联提供了宝贵的时间序列素材。近期研究前沿正逐步转向利用此类高粒度数据,结合机器学习模型来预测酒精相关健康负担(如肝病、交通事故发生率),并解析消费模式变迁与经济发展、城市化进程的交互效应。在非洲大陆快速城镇化和酒精产业扩张的背景下,该数据集对于评估WHO全球酒精行动计划在区域内的实施效果、指导精准干预策略具有关键支撑作用,其开源共享特性也极大地促进了跨学科健康数据科学研究的可复现性。
以上内容由遇见数据集搜集并总结生成



