five

electricsheepafrica/africa-who-alcohol-0000001751

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001751
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2020年间关于WHO GHO指标“饮酒者平均每日酒精摄入量(克),三年平均值”(SA_0000001751)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖46个非洲国家,总行数为2,898条,并包含按性别等子维度分层的数据。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, average daily intake in grams among drinkers, three-year average" (SA_0000001751) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations with a total of 2,898 rows and includes sub-dimensions such as sex stratification.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO Global Health Observatory)的OData API,聚焦于非洲地区居民饮酒者每日平均酒精摄入量(以克计,取三年均值)这一关键健康指标,覆盖2000年至2020年间46个非洲国家的2,898条国家级观测数据。数据经由Electric Sheep Africa项目团队重新整合与封装,以Parquet格式存储,并统一了数据模式。所有数值均采用浮点精度的NumericValue字段,而非显示字符串,同时保留了置信区间上下限等辅助信息,为机器学习任务提供了标准化、可直接处理的数据基础。
特点
该数据集最显著的特点在于其结构化的多维分层设计。除了基本的国家、年份和酒精摄入量均值字段外,数据表还通过dim1和dim2列明确记录了性别(如男女合计、男性、女性)等亚维度分层信息,使得研究者能够灵活筛选或聚合不同层级的分析单元。此外,数据集包含了点估计值及其置信区间,为统计建模和风险评估提供了可靠的不确定性度量。46个非洲国家跨越二十年的时序覆盖,使其成为研究非洲大陆酒精消费模式与公共健康关系的宝贵资源。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,调用load_dataset函数即可获得一个可直接使用的DataFrame对象。对于典型任务,如分析特定国家的酒精摄入时间序列,可按country_iso3字段过滤数据并按年份排序。若需聚焦于全国总体水平,可通过筛选dim1列中的SEX_BTSX(男女合计)值或处理缺失值来排除分层子组。数据集既适用于回归任务预测酒精摄入量,也可用于分类任务识别高危消费模式,其结构化的元数据字段确保了灵活的数据切片与聚合操作。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队整理,源自世界卫生组织(WHO)全球卫生观察站(GHO),聚焦非洲地区饮酒者每日平均酒精摄入量(以克计)的三年移动平均值。数据覆盖2000至2020年间46个非洲国家,共计2898条观测记录,是首个专为机器学习设计的非洲健康指标标准化数据集。其发布填补了非洲大陆酒精消费精细化数据的空白,尤其结合了性别等维度的分层信息,为研究区域公共卫生政策、酒精相关疾病负担及跨文化健康行为差异提供了关键基础。
当前挑战
数据集面临多维挑战:首先,非洲大陆健康数据长期存在采集不均和缺失问题,46国样本虽广但部分国家年份录数稀疏,可能影响时空分析的鲁棒性;其次,酒精摄入量依赖自我报告或二手估算,存在记忆偏倚与定义差异性,且原始API仅提供数值与置信区间,未包含方法论元数据,使得模型需处理噪声与异质性;最后,数据构建中需解决不同维度(如性别、居住地类型)的统一归约与缺失值插补,以避免因分层稀疏导致的聚合偏差,确保机器学习模型的可泛化性。
常用场景
经典使用场景
非洲地区饮酒人群日均酒精摄入量数据集(africa-who-alcohol-0000001751)汇聚了世界卫生组织全球卫生观测站中46个非洲国家2000年至2020年的三年平均酒精消费数据。该数据集作为公共卫生领域的关键资源,经典使用场景集中于评估非洲大陆不同性别和年龄群体的饮酒模式及其时空演变趋势。研究人员常利用其结构化布局,通过国家代码、年份和性别维度进行数据筛选与聚合,从而构建纵向队列或横截面分析框架。数据包含点估计值和置信区间,为量化非洲区域酒精消费的基线水平提供了精确的数值基础,尤其适合开展跨国家比较研究或探索酒精摄入量与社会经济、文化因素之间的关联。
解决学术问题
该数据集系统性地解决了非洲地区酒精消费数据匮乏且异质性高的学术困境,使得研究者能够突破以往因样本零散或口径不一而引发的方法论瓶颈。它提供的标准化工具体系,有力地支撑了围绕酒精摄入与重大非传染性疾病(如肝硬化、心血管疾病及特定癌症)之间剂量反应关系的流行病学建模。此外,结合饮酒者的日均摄入量,学者可以更精确地评估酒精使用障碍的流行程度及其对公共卫生体系的长期负荷,从而为世界卫生组织在全球酒精控制策略中制定针对性的干预阈值和区域政策提供了不可或缺的实证支撑。
衍生相关工作
基于该数据集衍生的经典工作主要集中于多因素风险暴露模型的构建与因果推断。众多研究将其与非洲疾病负担(GBD)协同数据集对接,建立了酒精摄入量与肝癌、高血压等疾病发病率之间的人口归因分数模型,推动了“酒精-健康”因果链的精细化量化。此外,部分学者利用其时间序列特性开发了贝叶斯层次回归框架,用于预测未来十年非洲地区的酒精消费趋势,并识别出饮酒模式的性别鸿沟与城市化进程的交互效应。这些衍生工作不仅丰富了全球酒精流行病学的数据库存,也为资源有限地区开展循证公共卫生干预提供了方法学范本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作