electricsheepafrica/africa-who-average-daily-intake-in-grams-of-alcohol
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-average-daily-intake-in-grams-of-alcohol
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标15岁以上人口每日平均酒精摄入量(克)(SA_0000001845)在非洲国家的国别观察数据,时间跨度为2000年至2020年。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间上下限(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator Average daily intake in grams of alcohol, population (15+) (SA_0000001845) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲15岁及以上人群日均酒精摄入量(以克计)这一关键健康指标。数据集由Electric Sheep Africa团队以Parquet格式进行统一封装,保留了原始API中的数值字段(NumericValue)作为核心数据,并附带了置信区间界限(value_low, value_high)。其构建过程严格遵循WHO AFRO区域过滤器,筛选出45个非洲国家在2000年至2020年间共计2835条观测记录,确保了地域与时间跨度的代表性。此外,数据根据性别等维度进行分层,使得每个国家-年份-维度的唯一组合形成独立的行记录,便于后续的多维度分析。
使用方法
使用该数据集极为便捷,可通过HuggingFace的datasets库直接加载为DataFrame格式。用户只需调用`load_dataset`函数即可获取完整的训练集,随后利用Pandas进行数据操作。例如,通过筛选`dim1`列中值为'SEX_BTSX'或为空的行,可快速提取全国总人口的观测数据;而对`country_iso3`列进行条件过滤,如选择'KEN',并结合`year`列排序,便能高效生成特定国家(如肯尼亚)的时间序列。这种高度模块化的接口设计,使得无论是进行基础统计分析还是构建回归或分类模型,都能实现零冗余的精准数据调用。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队于2020年整理发布,专注于非洲15岁及以上人口每日酒精摄入量(以克为单位)的监测。核心研究问题在于量化非洲大陆酒精消费的分布与趋势,为公共卫生政策制定提供数据支撑。数据集覆盖2000至2020年间45个非洲国家,共计2835条观测记录,通过WHO官方OData API获取并转化为机器学习友好的Parquet格式。作为统一非洲数据资产的一部分,该数据集在流行病学、健康经济学及机器学习交叉领域具有重要影响力,为酒精相关疾病负担建模、区域消费模式分析及健康干预效果评估提供了关键基础。
当前挑战
该数据集面临的挑战体现在两方面。在领域问题层面,需应对非洲酒精消费数据稀疏性及测量偏差——许多国家缺乏连续年度监测,且自我报告数据受文化禁忌影响存在低估;不同亚群(如性别、城乡)的消费异质性要求模型具备分层分析能力。构建过程中,挑战主要来自多源数据整合的标准化:原始WHO数据以嵌套JSON格式存储,需解析为统一表格结构;同时需处理置信区间缺失(部分观测仅有点估计值)与时间戳对齐问题。此外,45国中部分国家(如索马里、南苏丹等)因故未纳入,导致空间覆盖不完整,可能引入区域代表性偏差。
常用场景
经典使用场景
该数据集涵盖2000至2020年间45个非洲国家15岁以上人群的每日酒精摄入量(克)的观测数据,来源于世界卫生组织全球卫生观测站。其经典使用场景聚焦于跨国家、跨时间维度的酒精消费模式分析,研究者可借助其分层变量(如性别、城乡)展开亚群比较,或通过置信区间评估估计值的可靠性,从而构建预测模型或揭示区域饮酒行为的演变趋势。
解决学术问题
在学术研究中,该数据集常用于解决非洲地区酒精消费与公共健康关联的量化难题。它填补了非洲大陆缺乏统一、高质量酒精摄入统计数据的空白,支持探索酒精摄入与疾病负担(如肝病、心血管疾病)的生态学关联,或评估性别差异对饮酒行为的影响,为世界卫生组织目标(如减少有害饮酒)提供实证基础,推动全球健康不平等议题的深入分析。
实际应用
实际应用中,该数据集可直接服务于公共卫生政策制定与干预评估。例如,政府或非营利组织可基于其时间序列数据识别酒精消费热点区域,设计针对性的减害宣传项目;健康监测系统亦可结合机器学习模型预测未来饮酒趋势,优化资源分配。此外,其标准化格式便于与营养调查或经济数据集整合,支持跨领域决策。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区15岁以上人口日均酒精摄入量的追踪与建模,为全球健康与公共卫生领域提供了宝贵的时间序列数据资源。结合WHO全球健康观察站(GHO)的权威指标,该数据集可支持酒精消费趋势分析、跨性别与城乡维度的不平等性研究,以及酒精摄入与非传染性疾病(如肝硬化、心血管疾病)关联的机器学习预测模型构建。在非洲健康议题日益受到国际关注的背景下,这一数据集不仅为区域公共卫生政策制定提供了数据驱动决策依据,还推动了开放科学运动在低收入地区的实践,呼应了WHO关于酒精危害防控的最新倡议。其机器就绪的Parquet格式与标准化模式,更降低了流行病学与数据科学领域间的协作门槛。
以上内容由遇见数据集搜集并总结生成



