electricsheepafrica/africa-who-alcohol-04archived
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-04archived
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2005年至2010年间,世界卫生组织全球健康观察站(WHO GHO)指标15岁以上饮酒者人均纯酒精消费量(升)(SA_0000001404_ARCHIVED)的国家级观测数据。数据来源于WHO全球健康观察站OData API,并重新打包为Parquet格式文件,所有值均来自NumericValue字段(浮点精度),而非显示字符串。在可用情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖46个非洲国家,共240行数据,并按性别等维度进行分层。
This dataset contains country-level observations for the WHO GHO indicator Alcohol, drinkers only per capita (15+)consumption in litres of pure alcohol (SA_0000001404_ARCHIVED) across African nations, spanning 2005–2010. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,针对非洲地区46个国家,聚焦于“仅饮酒者人均(15岁以上)纯酒精消费量(升)”这一指标(代码SA_0000001404_ARCHIVED)。数据涵盖2005至2010年,共计240条观测记录,经重新打包为Parquet文件格式,并采用统一的列式Schema。所有数值均取自NumericValue字段(浮点精度),而非显示字符串形式,同时包含置信区间上下限(value_low、value_high)。数据集限定WHO AFRO区域(ParentLocationCode='AFR'),并支持按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等次维度进行分层筛选,每个国家、年份与维度的唯一组合构成一条独立记录。
特点
本数据集最鲜明的特质在于其面向机器学习就绪的统一结构化架构,具有高时效性与地理聚焦性。它以简洁的Parquet格式提供,包含indicator_code、country_iso3、year、value_numeric等关键字段,便于模型直接调用。同时保留了原始指标的分层信息(dim1、dim2),允许研究者针对特定性别或居住地类型进行精细分析。所有数值均采用浮点精度,配合置信区间,为统计推断与不确定性量化提供了可靠基础。此外,数据集涵盖46个非洲国家、时间跨度为六年,形成了对区域饮酒趋势的连续监测样本,适合用于时间序列预测、地理空间建模等任务。
使用方法
使用者可通过HuggingFace Datasets库便捷加载数据集,一行代码即可获取训练集并转换为Pandas DataFrame。建议先过滤dim1字段中的'_BTSX'后缀或空值以提取全国层面、两性综合的数据,避免维度混淆。针对特定国家的研究,可通过country_iso3字段筛选并排序年份获取时间序列。若需分析性别差异,可利用SEX_FMLE与SEX_MLE进行分组对比。数据集的完整性与规范化Schema使其可直接嵌入回归或分类管线,无需额外清洗,非常适合非洲健康政策分析、酒精消费模式研究以及相关预测模型的开发。
背景与挑战
背景概述
在全球公共卫生领域,酒精消费作为非传染性疾病的重要风险因素,一直是世界卫生组织(WHO)监测的核心议题之一。由WHO全球卫生观测站(GHO)于2010年前后发布的SA_0000001404_ARCHIVED指标数据集,聚焦非洲大陆15岁以上饮酒者的人均纯酒精消费量(以升计),覆盖2005至2010年间46个非洲国家的国别层面数据。该数据集由Electric Sheep Africa团队从WHO OData API统一采集并重新封装为机器学习友好的Parquet格式,为跨国家、跨年份的酒精消费趋势分析提供了结构化且可复用的基础资源。其发布填补了非洲地区酒精流行病学研究中标准化数据集的空白,促进了健康政策建模、风险因素归因及区域对比研究的发展。
当前挑战
该数据集所解决的领域挑战在于非洲酒精消费数据的碎片化与非标准化问题,即由于各国统计能力与报告口径差异,传统研究难以获得一致、可比较的消费量估算,进而制约了酒精危害干预策略的有效制定。在构建过程中,数据集面临多重挑战:首先,原始GHO数据接口返回的数值存在NumericValue与显示字符串两类字段,需精确筛选浮点精度值而非格式化文本;其次,指标按性别等维度分层(如SEX_BTSX、SEX_FMLE),不同国家年份的维度组合导致行结构不统一,需设计过滤逻辑以支持不同分析粒度;此外,置信区间上下限仅部分记录可用,缺失值处理与时间跨度的有限性(2005-2010)也为模型的时序推断与区域泛化带来约束。
常用场景
经典使用场景
该数据集聚焦于非洲国家15岁以上纯饮酒人群的人均酒精消费量(以升计),涵盖2005至2010年间46个非洲国家的观测数据。作为世界卫生组织全球卫生观察站(GHO)指标SA_0000001404_ARCHIVED的标准化版本,它尤其适用于构建面板数据模型,以探索酒精消费随时间演变的趋势。研究者可通过国家、年份及性别等维度进行分层分析,例如分离男女消费差异,或聚焦整体人群的宏观变化。这一数据集为流行病学与公共卫生领域提供了精细的量化基础,使其成为评估非洲地区酒精摄入模式及其社会决定因素的经典工具。
解决学术问题
该数据集解决了非洲地区酒精消费研究中长期存在的数据碎片化与可比性缺失问题。通过整合WHO官方发布的权威指标并以统一架构呈现,它使学者能够系统性地量化人均酒精消耗量,进而开展跨国家与跨时段的比较分析。在此基础之上,研究者可深入探讨酒精消费与肝炎、肝硬化、心血管疾病等非传染性疾病之间的关联,并评估不同性别与年龄群体间的风险差异。该数据集的意义在于,它弥合了非洲地区流行病学调查中的关键数据缺口,为制定区域性减害政策与全球健康目标(如可持续发展目标3.5)提供了可靠的理论支撑。
衍生相关工作
围绕该数据集衍生了一系列重要工作,其中最具代表性的是Electric Sheep Africa项目维护的非洲统一数据仓库,它整合了WHO、世界银行等机构的四十余项健康与发展指标,形成了多任务学习的丰富语料库。此外,研究者常将酒精消费数据与其他卫生指标(如艾滋病患病率、营养不良率)进行关联分析,从而揭示健康风险因素的交互作用。在预测建模领域,已有学者利用该数据集构建时序回归模型,预估非洲各国酒精消费的未来走势及其对医疗系统压力的影响。这些工作不仅推动了数据驱动的全球健康研究,也为开源数据生态与非洲本土科研能力建设注入了持续动力。
以上内容由遇见数据集搜集并总结生成



