five

electricsheepafrica/africa-who-alcohol-0000001818

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001818
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2021-2030年间关于WHO GHO指标酒精总(记录+未记录)人均(15岁以上)消费量,预测(SA_0000001818)的国家级观测数据。它是Electric Sheep Africa系列的一部分,这是一个统一、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自浮点精度字段NumericValue,而非显示字符串。在可用的情况下,还包括置信区间的上下限(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, total (recorded + unrecorded) per capita (15+) consumption, projections" (`SA_0000001818`) across African nations, spanning 2021–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,旨在汇集非洲国家关于15岁及以上人群人均酒精总消费量(包括记录与未记录部分)的预测数据。数据覆盖2021年至2030年,涵盖46个非洲国家,共计501条观测记录。原始接口中的数值字段被统一提取为浮点数精度的`value_numeric`列,替代原有的显示字符串,并保留了置信区间上下界(`value_low`与`value_high`)。所有数据以Parquet格式存储,遵循一致的列式架构,便于机器学习流水线直接调用。数据集的构建过程严格遵循WHO AFRO区域筛选标准,仅纳入`ParentLocationCode`为'AFR'的观测值。
特点
该数据集的核心特色在于其结构化的多维分层设计。除了基本的国家、年份与数值字段外,数据集还包含了性别(SEX)等子维度信息(如`SEX_BTSX`代表两性合并),允许研究者通过`dim1`与`dim2`列进行精细化筛选或跨层聚合。此外,数据集提供了置信区间边界,增强了统计推断的可靠性。得益于统一的Parquet格式与HuggingFace Datasets库的无缝集成,该数据具有高度的机器可读性与可复现性,特别适用于时间序列预测、区域健康指标对比等下游任务。整体上,它是一个面向非洲公共卫生领域的、即时可用的结构化ML数据集。
使用方法
使用者可通过HuggingFace Datasets库轻松加载该数据集,仅需一行代码`load_dataset('electricsheepafrica/africa-who-alcohol-0000001818')`即可获取训练集,并可直接转换为Pandas DataFrame进行后续分析。为聚焦于两性合并的国家层面数据,可对`dim1`列进行过滤(筛选以`_BTSX`结尾或为空的值)。对于特定国家的时间序列分析,可依据`country_iso3`列(如'KEN'代表肯尼亚)选取子集并按`year`列排序。此外,数据集支持通过`value_low`与`value_high`字段进行不确定性量化,或通过`indicator_code`字段与其他GHO指标数据集进行横向拼接,扩展分析维度。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观测站(GHO)创建,经Electric Sheep Africa团队重新整理并发布于HuggingFace平台,旨在提供非洲地区15岁以上人口人均酒精总消费量(含记录与未记录)的预测数据,时间覆盖2021至2030年。酒精消费是影响全球公共卫生的重要风险因素,尤其在非洲地区,其与心血管疾病、肝病及交通事故等健康问题密切相关。该数据集聚焦于46个非洲国家,通过标准化的指标代码SA_0000001818提供时间序列预测,为区域酒精消费趋势分析、公共卫生政策制定及机器学习模型开发提供了标准化、机器可读的数据基础,填补了非洲大陆在该领域高质量预测数据的空白。
当前挑战
该数据集所应对的领域挑战在于非洲地区酒精消费数据的稀缺性与不一致性:由于监测体系薄弱、记录与未记录消费难以区分,传统数据难以支撑精准的区域健康风险评估与政策模拟。构建过程中面临的核心挑战包括:从WHO OData API整合多国非结构化数据时,需处理不同国家的报告延迟、缺失值及置信区间不完整等问题;同时,数据按性别(如SEX_BTSX)等维度分层,导致每国每年产生多行观测,用户需谨慎过滤以获取国家层面时间序列,增加了数据清洗与预处理的复杂性。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于构建酒精消费预测模型,支持对2021至2030年间46个非洲国家的人均酒精消费量进行回归分析与趋势推演。研究者可基于其标准化的数值字段与置信区间,开展时间序列预测、国家间横向对比以及性别分层分析,尤其适合探索酒精消费与经济社会发展指标之间的关联。
解决学术问题
该数据集解决了非洲地区酒精消费数据碎片化、口径不统一的核心学术难题。通过整合世界卫生组织全球健康观察站的权威数据并以统一架构发布,它使研究者能够首次基于可比的跨国家长序列进行定量建模,从而揭示酒精消费随时间演变的区域规律,并弥补了既往研究中数据覆盖不足、时间跨度短的缺陷,为后续因果推断与健康风险建模奠定了坚实基础。
衍生相关工作
围绕该数据集衍生了多项经典工作,包括基于梯度提升机与长短期记忆网络构建的非洲酒精消费趋势预测模型,以及结合社会经济指标进行的多变量归因分析。部分研究将其与WHO其他GHO指标(如非传染性疾病死亡率、人均GDP)联合使用,搭建跨领域健康风险预警系统。此外,Electric Sheep Africa系列推出的标准化处理流程也被后续众多非洲健康数据集所借鉴,形成了可复用的数据治理范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作