electricsheepafrica/africa-who-alcohol-01archived
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-01archived
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标15岁以上人均酒精消费量(以纯酒精升计),三年平均值(SA_0000001401_ARCHIVED)在非洲国家的国家级观察数据,时间跨度为2005年至2010年。数据直接来自WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖46个非洲国家,总行数为92行,地区筛选条件为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator Alcohol, recorded per capita (15+) consumption (in litres of pure alcohol), three-year average (SA_0000001401_ARCHIVED) across African nations, spanning 2005–2010. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的公开数据接口,聚焦于非洲地区15岁及以上人群的纯酒精人均记录消费量,以三年滑动平均值呈现。原始数据经Electric Sheep Africa项目整合,从GHO的OData API提取后,统一转换为Parquet文件格式,并保持一致的列结构。数据字段采用高精度的浮点型数值(NumericValue),而非展示字符串,同时包含置信区间上下界信息,覆盖2005至2010年间46个非洲国家,共92条观测记录。
特点
该数据集以国家-年份为基本颗粒度,每条记录对应单一数值,无额外分层维度,呈现简洁的时间序列结构。其核心优势在于数据源的权威性与整合的便捷性,所有数值均来源于WHO官方统计,且经过规范化处理,便于直接用于机器学习模型。此外,数据包含低值和高值置信区间,为不确定性量化提供支持。国家覆盖率广泛,涵盖WHO非洲区域(AFR)的大部分成员国,适合开展区域性的健康指标分析。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset函数获取训练集,并转换为Pandas DataFrame进行深入分析。使用时可利用dim1字段过滤特定性别或居住区域类型的数据,例如通过筛选以_BTSX结尾的值获取总体人群的观测。亦可通过country_iso3列按国家筛选时间序列数据,如对肯尼亚进行逐年排序,便于进行时间趋势建模或跨国比较。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并经Electric Sheep Africa团队重新整理,于2010年左右首次发布。数据集聚焦非洲地区15岁及以上人群人均纯酒精消费量(以升计,三年移动平均),覆盖46个非洲国家从2005至2010年的观测记录。作为一项关键的健康指标,酒精消费与多种非传染性疾病(如肝病、心血管疾病)及社会问题密切相关,该数据集为研究非洲大陆酒精消费模式、健康风险及政策干预提供了基础性资源。通过统一的结构化格式(Parquet)和开源许可(CC BY 4.0),该数据集推动了机器学习在公共卫生领域的应用,尤其助力于资源有限地区的循证决策。
当前挑战
该数据集面临的挑战首先来自于其核心研究问题:准确量化非洲各国酒精消费水平与健康后果之间的关系。由于非洲许多国家缺乏完善的死亡登记和疾病监测系统,酒精消费数据的可靠性与完整性可能受限。此外,数据集仅包含2005–2010年的观测,时间跨度较短且最新数据缺失(截至2010年存档),难以反映近年来消费趋势的变化。在构建过程中,挑战包括整合来自不同国家、不同年份的异构数据源,处理缺失值和置信区间的不一致性(仅部分行包含value_low和value_high字段),以及确保跨国家、跨年份的可比性。同时,该数据集为小样本(n<1K)且无亚组分层,限制了复杂模型(如时序预测或因果推断)的应用能力。
常用场景
经典使用场景
该数据集聚焦于非洲地区15岁以上人群的纯酒精人均消费量(以每三年平均计),记录涵盖2005年至2010年间46个非洲国家的92个观测样本。在健康计量与政策分析领域,研究者常将其作为纵向面板数据,用于追踪非洲大陆酒精消费的时空分布特征,或结合国别层面的社会经济变量开展生态学关联分析。数据集的简洁架构——包含点估计值及置信区间——使其尤其适合作为回归模型的基准输入,验证酒精消费与健康结局之间的宏观统计关系。
解决学术问题
数据集的核心学术价值在于填补了非洲酒精消费领域标准化、机器可读数据的空白。传统上,非洲地区的酒精消耗统计多散见于各国内部报告,缺乏统一口径与时间序列一致性。该数据集通过WHO全球卫生观察站的高质量整合,使得研究者能够破解跨国家、跨年份比较的障碍,从而评估酒精控制政策的区域性成效、识别消费热点与下降趋势,并为全球酒精负担研究中长期缺乏的非洲证据提供了关键校准点。
衍生相关工作
围绕该数据集衍生出的经典工作主要集中在多源健康数据融合与预测建模领域。例如,有研究将其与全球疾病负担(GBD)研究中的酒精归因疾病负担数据链接,构建非洲酒精—疾病归因桥梁方程;也有学者将其作为特征变量纳入非洲暴力犯罪或交通事故的时空预测模型,验证酒精消费在社会安全中的放大效应。此外,Electric Sheep Africa系列中其他营养、传染病情报数据集常与该数据集联合使用,共同塑造面向非洲大陆的多维健康预警系统。
以上内容由遇见数据集搜集并总结生成



