five

electricsheepafrica/africa-who-alcohol-0000001398

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001398
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标酒精,按饮料类型分类的纯酒精消费百分比(SA_0000001398)在非洲国家的国家级观察数据,时间跨度为2000年至2019年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从世界卫生组织全球健康观察OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了45个非洲国家,总共有3,600行数据。

This dataset contains country-level observations for the WHO GHO indicator Alcohol, consumption of pure alcohol by type of beverage (%) (SA_0000001398) across African nations, spanning 2000–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 45 African nations with a total of 3,600 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区45个国家在2000至2019年间纯酒精消费量按饮料类型分布的指标(代码SA_0000001398)。数据经过系统化重打包,以Parquet格式存储,采用统一的数据模式,直接提取NumericValue字段中的浮点数值作为主要观测值,并尽可能保留置信区间上下限信息。构建过程中,依据WHO AFRO区域代码进行国家筛选,确保数据覆盖范围集中于非洲区域,同时保留酒精类型(如啤酒、烈酒、葡萄酒等)作为子维度,使每一行代表国家、年份与维度的唯一组合。
特点
该数据集包含3600条观测记录,覆盖45个非洲国家及20年时间跨度,具备良好的时空代表性。其核心特点在于细粒度的分层结构:通过dim1和dim2字段记录性别、居住地区类型等亚组信息,用户可按需筛选或聚合数据。所有数值均来自原始API的精确浮点值,辅以置信区间字段,便于进行统计推断和不确定性分析。此外,数据集采用标准化的列名设计,如indicator_code、country_iso3和value_numeric,与Electric Sheep Africa系列其他数据集保持高度一致性,极大提升了跨数据集整合与机器学习的便利性。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,例如使用load_dataset函数直接获取训练集并转换为pandas DataFrame进行后续分析。针对特定分析需求,推荐通过筛选dim1字段中的'BTSX'值或空值来获取全国层面、男女合计的观测记录。若要研究单一国家的时间序列特征,可按country_iso3字段过滤并依year排序。饮酒类型子变量(ALCOHOLTYPE)可用于细分分析,而confidence interval字段则支持带误差的估计与可视化。整体而言,该数据集设计兼顾了结构化存储与灵活调用,适用于分类、回归等多种机器学习任务。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并经Electric Sheep Africa团队重新打包整理,聚焦于非洲地区2000年至2019年间纯酒精消费按饮料类型划分的百分比指标(代码SA_0000001398)。作为首个面向机器学习的非洲健康数据统一存储库,该数据集覆盖45个非洲国家,共3600条观测记录,填补了非洲大陆在酒精消费细分数据上的空白。其核心研究问题在于量化不同酒精类型(啤酒、烈酒、葡萄酒及其他酒精饮料)在非洲各国的消费结构差异,为流行病学、公共卫生政策及机器学习驱动的健康风险建模提供标准化数据基础,在促进非洲地区健康数据科学化和国际比较中具有里程碑意义。
当前挑战
数据集面临的核心挑战包括:第一,酒精消费数据的高度结构化问题——WHO GHO指标通过性别、城乡等维度进行分层,导致同一国家同一年份存在多条记录,需要设计稳健的分层聚合策略以避免分析偏差;第二,数据稀疏性与置信区间不完整性——部分观测值缺乏上下置信区间,且饮料类型分类在非洲语境下(如传统酿造酒精归属问题)可能引发测量误差;第三,时序数据跨度20年却仅含3600条样本,在构建预测模型时易受小样本过拟合和地域非均衡性影响;第四,数据集成与兼容性挑战,即需与非洲其他健康指标(如疾病负担、医疗资源)关联分析时,跨数据集的字段标准不一致限制了多源融合研究。
常用场景
经典使用场景
该数据集聚焦于非洲地区人群纯酒精消费量按饮品类型(啤酒、葡萄酒、烈酒及其他酒精饮品)的百分比分布,覆盖2000至2019年间45个非洲国家的年度观测数据。其经典使用场景涉及时间序列分析与跨国比较研究,研究者可通过`country_iso3`与`year`字段构建面板数据,探究不同酒精饮品类型的消费结构随时间的演变规律。同时,`dim1`和`dim2`字段支持按性别、城乡等维度进行亚组分析,为理解非洲大陆酒精消费的社会人口学差异提供了精细化的数据基础。
衍生相关工作
围绕该数据集衍生出的经典工作主要涵盖三个方向:一是基于面板数据的固定效应模型分析,系统评估非洲国家独特的酒精文化(如传统啤酒消费)对总酒精摄入量的影响;二是运用聚类或因子分析技术,对各国按酒精饮品偏好进行类型学划分,揭示“烈酒消费型”、“啤酒消费型”和“多元均衡型”等区域模式;三是整合WHO其他健康指标(如非传染性疾病死亡率、精神障碍患病率),构建因果推断框架,探讨酒精消费结构对健康不平等程度的中介效应。部分前沿研究还引入时空地理加权回归(GTWR)方法,刻画酒精消费热点的空间扩散路径。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区2000至2019年间各类酒品(啤酒、烈酒、葡萄酒及其他酒精饮料)在纯酒精消费中的占比,为理解非洲大陆酒精消费结构提供了精细化、可机器学习的标准化数据。前沿研究正结合这一高时空分辨率的数据,利用时序回归与分类模型,分析酒精消费模式与公共卫生政策、社会经济变迁之间的动态关联。尤其在非洲非传染性疾病负担日益攀升的背景下,该数据集可助力揭示不同酒精类型消费对肝硬化、心血管疾病等健康结局的差异化影响,为WHO AFR0区域制定靶向性酒精管控策略提供实证依据,并推动非洲健康数据的开放共享与模型跨区域泛化能力验证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作