five

electricsheepafrica/africa-who-alcohol-0000001411

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001411
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2020年期间,世界卫生组织全球健康观察站(WHO GHO)关于过去12个月内不饮酒者(%)的指标数据(指标代码:SA_0000001411)。作为Electric Sheep Africa项目的一部分,它是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO GHO OData API获取,并以Parquet文件格式重新打包,包含数值型数据和置信区间等信息。数据集覆盖47个非洲国家,总共有2,899行数据,并按性别等子维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, abstainers past 12 months (%), age-standardized" (SA_0000001411) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区,涵盖2000年至2020年间47个非洲国家的年龄标准化饮酒戒酒率(%)指标。数据以Parquet格式重新打包,采用统一架构,所有数值直接来源于API中的浮点精度字段NumericValue,而非显示字符串,并尽可能包含置信区间上下限。当指标按性别或年龄等维度分层时,每个国家、年份与维度的唯一组合构成独立数据行,确保细粒度信息完整保留。
特点
数据集共包含2899条观测记录,以国家-年份为基本结构,提供点估计值、置信区间及格式化显示字符串。其核心特色在于分层维度支持,如性别(SEX_BTSX、SEX_FMLE、SEX_MLE)和居住地类型,允许用户按需筛选或汇总。数据源自权威的WHO GHO,经过标准化处理,适合机器学习任务中的分类与回归分析,且所有字段均包含明确的类型和描述,便于直接调用。
使用方法
用户可通过HuggingFace的load_dataset函数直接加载数据,并将其转换为pandas DataFrame进行后续分析。推荐按性别维度筛选,如使用dim1字段过滤出两性合计(SEX_BTSX)或缺失值对应的国家层面数据。针对时间序列分析,可对特定国家(如KEN)按年份排序,从而洞察戒酒率的长期趋势。数据集兼容分类与回归任务,且提供置信区间,适用于不确定性量化场景。
背景与挑战
背景概述
酒精消费是影响全球公共卫生的重要因素之一,尤其在非洲地区,由于经济发展不平衡、文化差异及卫生资源有限,戒酒率的变化对疾病负担与政策干预效果具有深远影响。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2020年发布,经Electric Sheep Africa团队整理并标准化,聚焦于非洲47国在2000至2020年间年龄标准化的过去12个月戒酒百分比。其核心研究问题在于揭示非洲各国酒精戒断行为的时空分布模式,为流行病学建模、健康政策评估及机器学习驱动的预测分析提供高质量、结构统一的基础数据。作为‘非洲电羊’倡议的一部分,该数据集填补了非洲健康领域开放数据在可计算性上的空白,有力推动了区域健康指标的可复用研究与国际比较。
当前挑战
该数据集所解决的领域挑战在于酒精戒断率受多因素协同影响,如社会经济地位、宗教信仰及卫生政策,传统统计模型难以捕捉复杂非线性关系,亟需结构化、跨时间跨国的样本以支撑机器学习模型训练与健康干预模拟。构建过程中面临多重障碍:原始数据以展示字符串格式存储,需通过OData API逐字段提取精确浮点值并剔除显示冗余;各国家与年份的记录稀疏不均,性别、居住地等亚维度分层导致同一指标存在多重重复条目,增加了聚合与清洗的难度;同时,置信区间栏目的缺失率较高,如何在建模中合理处理不确定性亦是一大挑战。
常用场景
经典使用场景
在公共卫生与流行病学研究中,该数据集被广泛用于分析非洲国家酒精消费的禁酒率趋势。研究者常利用其包含的年龄标准化禁酒百分比指标,结合性别和年份维度,探讨不同国家在2000至2020年间的饮酒行为变迁。通过比较男女性和整体人群的禁酒率,可揭示社会文化、经济发展或政策干预对饮酒习惯的潜在影响,为区域健康风险评估提供量化基础。
解决学术问题
该数据集有效填补了非洲大陆酒精消费标准化监测数据的空白,解决了以往研究中因指标不统一或国家覆盖不全导致的分析偏差问题。它支持学者开展酒精相关疾病负担的生态学研究,例如评估禁酒率与肝硬化、心血管疾病发病率的关联。同时,为跨国比较和面板回归分析提供了可靠的时间序列数据,推动了酒精政策效果评估方法学的进步。
衍生相关工作
该数据集直接衍生了多项关于非洲酒精消费社会决定因素的横断面研究,并启发了机器学习模型预测未来禁酒率变化趋势的工作。此外,它作为Electric Sheep Africa统一数据存储库的一部分,被整合进多指标健康监测系统,与其他WHO GHO数据集(如烟草使用或肥胖率)联合分析,催生了综合性非传染性疾病风险因素建模的开源工具包。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作