five

electricsheepafrica/africa-who-alcohol-0000001401

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001401
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“酒精,记录的人均(15岁以上)消费量(以纯酒精升计),三年平均值”(SA_0000001401)在非洲国家的国家级观察数据,时间跨度为2005年至2010年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, recorded per capita (15+) consumption (in litres of pure alcohol), three-year average" (SA_0000001401) across African nations, spanning 2005–2010. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家15岁及以上人口人均纯酒精消费量的三年移动平均值(指标代码SA_0000001401)。数据覆盖2005至2010年间46个非洲国家,共计92条观测记录,所有数值均提取自API返回的浮点精度字段NumericValue,而非显示字符串,并同步收录了置信区间上下界。数据经统一模式重构为Parquet格式,纳入Electric Sheep Africa系列,旨在为机器学习场景提供开箱即用的非洲健康数据集。
特点
数据集具有明确的指标唯一性,每个国家每年仅对应一条观测值,无额外分层子维度,结构简洁紧凑。除核心指标value_numeric外,还提供了value_low与value_high两个置信区间字段,便于不确定性分析。所有观测均限定于WHO非洲区域(ParentLocationCode为AFR),支持46个ISO三位字母国家代码的精准定位,时间跨度连续六年,适合时间序列建模与区域比较研究。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,调用load_dataset函数并指定数据集名称,即可获得包含92行样本的Parquet格式数据。加载后利用to_pandas方法转换为DataFrame,便于后续分析。若需聚焦特定子群体(如男女合计、全国层面),可结合dim1字段筛选以_SEX_BTSX结尾或缺失值的行。亦可通过country_iso3字段按国家代码过滤,再按year排序以构建单国时间序列,用于趋势分析与预测任务。
背景与挑战
背景概述
酒精消费是全球公共卫生领域的重要监测指标,尤其在非洲大陆,其消费模式与疾病负担、社会经济发展密切相关。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2010年左右创建,经Electric Sheep Africa团队重新打包并发布于HuggingFace平台,聚焦于非洲46个国家在2005至2010年间15岁及以上人口的人均纯酒精消费量(三年移动平均值)。其核心研究问题在于提供标准化、机器可读的非洲酒精消费数据,以支持区域健康差异分析、流行病学建模及政策评估。该数据集弥补了非洲酒精消费数据分散、格式不一的缺陷,为研究酒精相关疾病、社会经济影响及干预措施效果提供了关键基础,对推动非洲公共卫生领域的量化研究具有显著价值。
当前挑战
该数据集所解决的领域问题核心在于非洲酒精消费数据的碎片化与不可比性,阻碍了区域健康指标的趋势分析及跨国比较。具体挑战包括:数据稀疏性——仅92条记录,覆盖46国6年,时间跨度和样本量有限,难以支持细粒度时间序列或面板数据建模;置信区间缺失——部分观测缺失值低与值高字段,影响不确定性量化;维度单一——无年龄、性别等亚组分层(如SA_0000001401指标),无法解析消费模式的子群体差异,限制了对酒精相关风险精细评估的能力。此外,构建过程中需从WHO API提取并清洗异构数据,统一指标代码与各国编码系统,确保跨年份一致性,反映了非洲公共数据集整合的普遍技术壁垒。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究领域,该数据集被广泛用于分析2005至2010年间46个非洲国家15岁以上人群的人均纯酒精消费量。研究者通常将其作为时间序列数据,探索酒精消费水平的跨国差异与时空演变趋势,例如结合社会经济指标或疾病负担数据,构建回归模型以揭示酒精摄入与健康结局之间的关联。
解决学术问题
该数据集有效解决了非洲区域酒精消费量化数据匮乏的学术困境,为验证酒精使用与肝脏疾病、交通事故及暴力行为等健康问题的流行病学假说提供了实证基础。通过标准化指标和置信区间信息,它支撑了跨国比较研究,促进了关于酒精政策干预效果、文化因素对消费模式影响等理论问题的深入探讨,对制定区域性公共卫生策略具有深远意义。
衍生相关工作
基于该数据集,衍生出多项经典研究工作,包括整合WHO多种健康指标构建非洲健康风险图谱的综合性分析,以及利用机器学习方法预测未来酒精消费趋势的建模研究。相关成果常见于《BMC Public Health》等期刊,推动了非洲地区酒精流行病学与政策评估领域的方法学创新,并为后续开放数据倡议树立了范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作