electricsheepafrica/africa-who-alcohol-0000001413
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001413
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2020年间关于过去12个月内饮酒者比例(年龄标准化)的WHO GHO指标数据(指标代码:SA_0000001413)。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,是Electric Sheep Africa项目的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据集涵盖了46个非洲国家,共999行数据,包括数值估计值、置信区间边界等信息。此外,数据集还提供了按性别等维度分层的子维度数据。
This dataset contains country-level observations for the WHO GHO indicator "Alcohol, consumers past 12 months (%), age-standardized" (`SA_0000001413`) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区年龄标准化后过去12个月内酒精消费者的百分比(指标代码SA_0000001413)。数据以Parquet格式重新打包,采用统一的模式结构,所有数值均取自浮点精度的NumericValue字段,而非显示字符串。当指标按性别或居住地类型等维度分层时,每个国家、年份与维度的唯一组合生成独立的观测行。数据集还保留了置信区间上下界(value_low与value_high),以备统计推断之需。
特点
该数据集涵盖2000至2020年间46个非洲国家的999条观测记录,属于WHO AFRO区域。其核心特点在于多维分层结构,允许用户通过dim1与dim2字段筛选不同性别(如男女合计、女性、男性)或居住地类型(如农村、城市)的亚组数据。此外,数据集包含点估计值(value_numeric)及可用的置信区间,支持回归与分类任务,并遵循CC BY 4.0许可协议,便于学术与机器学习研究。
使用方法
使用者可通过HuggingFace Datasets库直接加载数据,例如使用`load_dataset("electricsheepafrica/africa-who-alcohol-0000001413")`获取训练集,并转换为Pandas DataFrame进行后续分析。对于国家级别的观察,可筛选dim1字段中后缀为_BTSX或为空的行以获取全国总体数据;若要研究特定国家的时间序列,则可按country_iso3与year字段进行过滤与排序。该数据集适合用于健康监测、酒精消费趋势分析及跨国家比较的机器学习建模。
背景与挑战
背景概述
在全球公共卫生领域,酒精消费是影响非传染性疾病负担的关键风险因素之一,尤其对非洲大陆而言,其独特的文化、经济与政策环境使得相关数据的系统化整理与分析变得至关重要。该数据集由Electric Sheep Africa团队于2020年整理发布,源自世界卫生组织全球卫生观察站提供的年龄标准化酒精消费指标,覆盖2000年至2020年间46个非洲国家的观察数据。其核心研究问题在于为机器学习和流行病学分析提供统一、可复用的结构化数据,弥补非洲地区在酒精消费长期动态监测方面的数据缺口,对推动精准公共卫生干预与健康政策评估具有重要的支撑作用。
当前挑战
该数据集面临的核心挑战在于所解决的领域问题:如酒精消费作为慢性病风险因子,其跨时间、跨国家的趋势分析易受数据稀疏性与亚群体异质性影响,尤其是在性别、城乡等维度上的分层观察可能因样本不足而削弱统计效力。构建过程中,原始数据源自WHO OData API的多源抓取与整合,面临着异构数据格式的统一、缺失值的处理以及置信区间字段的兼容性保存等工程难题。此外,999条观测记录对于时间序列分析与多维拆分而言可能显得相对有限,进一步限制了复杂模型(如深度学习)在大范围国家比较中的直接应用。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集常被用于构建年龄标准化后的酒精消费率预测模型,涵盖2000至2020年间46个非洲国家的观测数据。研究人员可借助该数据集开展时序分析,揭示不同性别、城乡区域及国家层面的酒精摄入趋势演变规律。其结构化的元数据设计,尤其是包含点估计值与置信区间界值,支持对酒精消费行为进行稳健的统计推断与跨群体比较。
衍生相关工作
围绕该数据集,衍生出一系列典型研究工作,包括利用机器学习方法融合多源健康指标构建非洲酒精消费时空预测模型,以及结合教育、收入等社会决定因素进行因果推断分析。部分学者将其与GHO中其他非传染性疾病风险因子数据联动,生成综合性健康风险图谱。该数据集还促成了可复现的基准算法开发,推动了非洲特定区域的开放科学与可重复性研究进程。
数据集最近研究
最新研究方向
该数据集聚焦于非洲大陆年龄标准化后的过去12个月饮酒人口比例(2000–2020年),为公共卫生领域的前沿研究提供了关键基线与纵向证据。当前研究方向主要围绕非洲酒精消费的流行病学模式挖掘、性别与城乡维度的差异性分析,以及社会经济因素对饮酒行为的交叉影响。结合全球非传染性疾病防控热点,该数据可支持构建非洲区域酒精相关健康风险的预测模型,助力WHO全球酒精行动计划在非洲的实施效果评估,对于资源有限地区的精准干预策略制定具有重要的基准价值与政策导向意义。
以上内容由遇见数据集搜集并总结生成



