five

electricsheepafrica/africa-who-alcohol-03archived

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-03archived
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家人均酒精消费量的指标数据,具体为Alcohol, total (recorded 3 year average + unrecorded) per capita (15+) consumption (in litres of pure alcohol)(SA_0000001403_ARCHIVED)。数据覆盖2005年至2010年,涉及46个非洲国家,共计184条记录。数据来源于WHO Global Health Observatory的OData API,并以Parquet格式重新打包,包含数值估计、置信区间等信息。数据还按性别等维度进行了分层,适用于表格分类和回归任务。

This dataset contains country-level observations for the WHO GHO indicator Alcohol, total (recorded 3 year average + unrecorded) per capita (15+) consumption (in litres of pure alcohol) (SA_0000001403_ARCHIVED) across African nations, spanning 2005–2010. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区,收录了2005至2010年间46个非洲国家关于人均酒精消费量的估算数据。数据经过系统化清洗与重组,从原始API中的浮点型字段'NumericValue'提取精确数值,并保留了置信区间上下限。所有记录以Parquet格式封装,形成统一的机器学习就绪架构,并按照国家、年份及性别等维度进行分层组织,确保数据在时间与空间维度上的结构化与一致性。
特点
该数据集的核心优势在于其专为非洲区域设计的精细粒度与标准化结构。它提供了人均纯酒精消费量的总估算值,同时细分了性别(男女及全体)维度,支持多维分析。数据涵盖46个非洲国家,时间跨度为六年,共计184条记录,并附有置信区间,增强了统计可信度。此外,数据集遵循统一的列模式,包含国家ISO代码、WHO区域标识与时序信息,便于与非洲其他健康指标横向整合,为区域酒精消费模式研究提供了可靠的数据基础。
使用方法
使用者可通过HuggingFace Datasets库便捷加载数据:调用`load_dataset('electricsheepafrica/africa-who-alcohol-03archived')`即可获取训练集。返回的DataFrame支持灵活筛选,例如通过`dim1`列过滤出'SEX_BTSX'以获取全体性别数据,或结合`country_iso3`与`year`字段提取特定国家的时间序列。数据包含的连续型变量`value_numeric`可直接作为回归任务的目标值,而分类变量如国家代码与年份则可用于分类建模,实现从探索性分析到预测建模的无缝衔接。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队整理发布,聚焦于非洲国家2005至2010年间人均(15岁以上)酒精总消费量(涵盖已记录三年均值与未记录部分,以纯酒精升数计量)。其核心研究问题在于揭示非洲地区酒精消费的时空分布特征,为全球公共卫生政策制定、酒精相关疾病负担评估以及健康行为干预提供量化依据。作为非洲区域健康指标数据统一化与机器学习就绪化的重要实践,该数据集推动了WHO开放数据在数据科学领域的应用,尤其对低资源环境下的健康监测与预测建模具有参考价值。
当前挑战
该数据集所解决的领域问题包括:酒精消费统计在非洲多国面临数据稀疏、口径不一致及时间跨度不均等困境,限制了区域健康风险的精确评估与比较。构建过程中,主要挑战源自WHO原始API数据的异构性与存档格式差异,需协调字段映射(如将NumericValue与置信区间分离)、处理缺失值及保证46国层面分层维度的完整性。此外,数据跨度为6年且仅包含184条记录,样本量较小,对机器学习模型的泛化能力构成考验,需谨慎处理时间序列与空间异质性带来的偏差问题。
常用场景
经典使用场景
该数据集记录了2005至2010年间46个非洲国家的人均纯酒精消费量(涵盖登记与未登记酒精,以15岁以上人口为基准),是研究酒精消费与公共健康关系的宝贵资源。其经典使用场景包括构建时间序列模型,以分析非洲各国酒精消费的长期趋势与波动模式;亦可用于面板数据回归,探讨社会经济、文化或政策变量对酒精消费的驱动作用。结合WHO提供的置信区间,该数据集还能支持不确定性分析,为流行病学建模提供更可靠的输入。数据按性别分层(SEX_BTSX、SEX_FMLE、SEX_MLE),允许研究者深入探讨性别差异在酒精消费中的表现,填补了非洲地区精细化酒精消费数据的空白。
衍生相关工作
该数据集衍生了多项具有影响力的相关工作。作为Electric Sheep Africa系列数据集的组成部分,它激励了面向非洲地区的自动化数据管道开发,推动了可复现的研究基础设施构建。基于该数据,学者构建了非洲酒精消费的贝叶斯时空模型,首次绘制了亚区域层面的消费热点地图,揭示了中部与南部非洲的消费异质性。另有研究者将其作为特征输入,训练回归模型预测酒精使用障碍的患病率,为精神健康领域的预测建模树立了范例。数据中置信区间字段的设计也催生了针对小样本健康指标的稳健推断方法,相关的统计框架被后续应用于非洲营养不良与疾病分布的研究中,拓展了数据集的方法论价值。
数据集最近研究
最新研究方向
该数据集聚焦于2005至2010年间非洲国家人均纯酒精消费量的统计与建模,整合了世界卫生组织全球健康观察站的官方记录与未记录数据。在非洲公共卫生领域,酒精消费与心血管疾病、肝硬化及交通事故等健康风险密切关联,该数据集为研究酒精摄入与健康结局之间的剂量-反应关系提供了关键基础。当前前沿方向包括借助该数据集构建机器学习回归模型,预测非洲国家酒精消费趋势,并探究社会经济因素(如收入水平、城市化率)与饮酒模式的交互作用。此外,研究者正尝试将其与WHO其他健康指标(如艾滋病患病率、结核病发病率)关联,揭示酒精滥用对非洲传染病负担的间接影响。该数据集的标准化结构和性别、地区维度分层,使其成为评估非洲酒精控制政策效果、推动可持续发展目标中健康相关指标的机器学习基准数据源。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务