five

electricsheepafrica/africa-who-alcohol-0000001414

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001414
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2020年间关于酒精,前饮酒者(%),年龄标准化的WHO GHO指标数据(指标代码:SA_0000001414)。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,是Electric Sheep Africa项目的一部分——一个统一的、适合机器学习使用的非洲数据仓库。数据集覆盖了46个非洲国家,总共有2,898行数据。所有数值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据还按性别等子维度进行了分层,每个国家×年份×维度的唯一组合都会产生单独的行。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, former drinkers (%), age-standardized" (`SA_0000001414`) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 46 African nations with a total of 2,898 rows. When an indicator is stratified (e.g., by sex or age group), each unique combination of country × year × dimension produces a separate row.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区年龄标准化后的既往饮酒者比例(指标代码SA_0000001414)。数据覆盖2000年至2020年间46个非洲国家的2,898条观测记录,以Parquet格式重新封装,并遵循统一的数据模式。所有数值均提取自高精度的NumericValue字段,而非显示字符串,同时纳入置信区间上下限(若可用),从而保证了数据在机器学习任务中的原始精度与可靠性。
特点
数据集的核心特色在于其多维分层结构,支持按性别(如男女合计、男性、女性)等维度进行拆解分析,每个国家-年份-分层的组合作为独立行呈现。此外,数据集包含了完整的元数据字段,包括指标编码、国家ISO代码、WHO区域代码、观测年份、数值及置信区间、显示字符串、维度类型与取值,以及最近更新时间戳,为细粒度的时空对比与回归任务提供了丰富的特征基底。
使用方法
用户可通过HuggingFace Datasets库便捷加载数据,例如使用`load_dataset('electricsheepafrica/africa-who-alcohol-0000001414')`命令。加载后的数据集可直接转换为Pandas DataFrame进行后续分析。针对特定需求,可以通过过滤`dim1`字段提取双性全国层级数据(`dim1`以'_BTSX'结尾或为空值),或依据`country_iso3`筛选特定国家(如肯尼亚)的时间序列,从而灵活开展回归建模或分类探索。
背景与挑战
背景概述
非洲大陆长期面临酒精消费引发的公共卫生挑战,世界卫生组织(WHO)全球健康观测站(GHO)为此系统追踪了多项健康指标。在此背景下,Electric Sheep Africa团队于近年整合并发布了africa-who-alcohol-0000001414数据集,聚焦非洲国家年龄标准化后曾饮酒者百分比。该数据集源自WHO官方OData API,时间跨度为2000年至2020年,覆盖46个非洲国家,共计2898条观测记录,并统一重构为机器学习友好的Parquet格式。作为非洲健康数据统一存储库的重要组成部分,该数据集为研究者深入分析非洲地区酒精使用模式的时空演变提供了标准化的定量基础,对区域公共卫生政策制定与跨国家比较研究具有显著推动作用。
当前挑战
该数据集所解决的领域核心挑战在于,酒精消费作为影响非洲疾病负担的关键风险因素,其既往衡量指标常因性别、地域分层以及年龄标准化差异而难以进行跨国家、跨时间的比较分析。通过提供涵盖两性及城乡亚组的统一结构化数据,研究者能够更准确地评估禁酒行为分布及其健康影响。在构建过程中,主要挑战包括:从WHO GHO OData API中精确提取并验证浮点数值而非显示字符串,确保数据底层精度;处理不同国家因数据报告差异导致的缺失置信区间问题,兼顾可用性与统计严谨性;同时需统一年份覆盖的不均衡性,保证46个国家在21年跨度内数据记录的连续性与可比性。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集常被用于分析非洲地区不同性别与年龄标准化后既往饮酒者比例的趋势变化。研究者可基于46个非洲国家2000至2020年间的时间序列数据,结合WHO AFRO区域背景,开展跨国家、跨性别的饮酒行为比较,或作为多元回归模型中的因变量,探索社会经济发展水平、政策干预等因素对饮酒模式的影响。其结构化的Parquet格式与统一的指标编码,极大便利了机器学习流水线中的特征工程与模型训练,尤其适用于分类与回归任务中关于健康风险的预测建模。
解决学术问题
该数据集有效填补了非洲大陆在酒精消费亚人群——即既往饮酒者比例——方面的系统性数据空白。传统研究多聚焦于当前饮酒者或人均消费量,而对于已戒酒群体的流行病学特征关注不足。借助这一数据集,学者得以量化酒精相关疾病负担中既往饮酒者的贡献,识别性别与区域间的不平等,并评估戒酒干预措施的长期效果。其置信区间字段更支持不确定性量化,为政策模拟与meta分析提供了可靠的数据基础,推动了全球健康科学中关于“饮酒史”这一被忽视维度的实证研究。
衍生相关工作
该数据集衍生了一系列具有影响力的学术工作,尤其在基于机器学习的健康风险预测领域。研究者常将其与WHO的其他酒精指标(如当前饮酒率、人均纯酒精消费量)结合,构建多目标回归模型,以预测酒精导致的伤残调整生命年(DALYs)。部分工作进一步引入空间统计方法,利用国家代码与时间戳探索酒精戒断行为的时空聚类模式。此外,该数据集作为Electric Sheep Africa项目的一部分,也催生了针对非洲健康数据标准化与可复现性的方法论讨论,推动了开源健康数据在低资源环境中的民主化应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作