electricsheepafrica/africa-who-alcohol-0000001746
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001746
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“酒精,总量(记录+未记录)人均(15岁以上)消费量,带95%置信区间,预测至2025年”(SA_0000001746)在非洲国家的国家级观察数据,时间跨度为2015年至2025年。数据直接来自WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Alcohol, total (recorded + unrecorded) per capita (15+) consumption with 95%CI, projections to 2025" (SA_0000001746) across African nations, spanning 2015–2025. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区15岁及以上人口人均酒精消费量(涵盖记录与未记录部分)及其95%置信区间,并延伸至2025年的预测值。数据以Parquet格式重新封装,保持一致的架构设计,所有数值精确提取自浮点型字段NumericValue,同时纳入置信区间上下限。涵盖非洲46个国家、2015至2025年间共138条观测记录,排除了亚维度分层,确保每一条目对应单一国家与年份的组合。
特点
该数据集具有显著的结构化优势,包括指示代码、国家ISO3编码、WHO区域、年份、核心数值及置信区间等关键字段,同时保留显示字符串与更新时间戳。由于数据集专门抽提了WHO AFRO区域的记录,并剔除非必要的维度分层,使其在机器学习任务中直接可用,既适用于回归分析以预测酒精消费趋势,也可转化为分类问题。此外,数据集以高质量、机器就绪的格式呈现,大大降低了非洲健康数据应用的预处理门槛。
使用方法
通过Hugging Face的datasets库即可便捷加载,仅需一行代码即可将数据转为Pandas DataFrame进行深度分析。使用者可通过筛选dim1字段过滤“两性”层次以获得全国层面数据,亦可按国家ISO3代码提取特定国家的时间序列,如对肯尼亚数据进行逐年排序。数据集的简洁结构使其适配于时间序列预测、区域比较研究以及公共卫生政策建模等任务,且无需额外清洗即可直接投入训练或可视化流程。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球健康观察站(GHO)创建,经Electric Sheep Africa团队整合重构后发布于HuggingFace平台,聚焦于非洲地区15岁以上人群人均酒精消费量(含记录与未记录部分)及其95%置信区间的预测数据,时间跨度为2015至2025年。酒精消费是影响非洲公共卫生的关键风险因素,与肝病、心血管疾病及社会暴力等健康问题密切相关。该数据集覆盖46个非洲国家,以标准化的表格格式提供国家层面的点估计与置信区间,为研究非洲酒精消费趋势、区域差异及健康政策评估提供了高质量、可复用的机器学习就绪数据资源,对推动非洲健康数据科学和循证决策具有重要意义。
当前挑战
该数据集所解决的领域问题在于,非洲地区的酒精消费数据长期存在质量参差、口径不一且缺失严重的问题,难以支撑可靠的跨国比较与趋势分析。构建过程中的核心挑战包括:一是需从WHO GHO的OData API中提取并清洗数据,克服原始数据中显示字符串与数值字段可能不一致的问题,确保仅使用浮点精度的NumericValue字段;二是需处理置信区间边界数据(value_low, value_high)在某些年份或国家可能缺失的情况;三是将分散的国家观测数据统一为一致的模式,并实现按国家、年份、人口统计学维度(如性别、居住地类型)的灵活筛选,同时保持数据完整性,最终以Parquet格式发布以提升机器学习流水线的读取效率。
常用场景
经典使用场景
该数据集聚焦于非洲大陆人均酒精消费量的追踪与预测,涵盖2015至2025年间46个非洲国家的记录与未记录酒精消费数据,并附有95%置信区间与未来趋势推估。其经典使用场景在于为跨区域流行病学建模提供标准化的时序数据基础,研究者可借此分析非洲各国酒精消费的演变轨迹,揭示区域间差异与时间动态,进而构建风险因素与健康结局之间的关联模型。数据以Parquet格式存储,字段设计紧凑且包含置信区间上下界,特别适用于基于机器学习的回归与分类任务,如预测酒精消费等级或识别高负担国家。
衍生相关工作
该数据集作为Electric Sheep Africa系列的一部分,其结构化设计与开源发布范式已催生多项衍生工作。研究者可在其基础上构建时空预测模型,如利用Prophet或LSTM对酒精消费趋势进行多步外推,并结合社会经济指标探索消费驱动因素。更深入的学术探索包括将酒精消费数据与WHO全球健康观察站的其他指标(如非传染性疾病死亡率、医疗资源分布)进行交叉分析,形成综合健康风险画像。此外,数据集的统一Schema设计也为类似非洲健康数据集的构建提供了可复用的技术模板,推动了低资源地区数据科学基础设施的标准化进程。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区15岁以上人群人均酒精总消费量(涵盖已记录与未记录部分)及其95%置信区间,并延伸至2025年的预测值,为非洲公共卫生领域的酒精消费流行病学研究提供了纵向数据基础。当前前沿研究方向包括:结合酒精消费的时间序列分析与非洲非传染性疾病(如肝病、心血管疾病)的发病率建模,探索消费趋势与健康结局的关联;利用该数据集的置信区间特征进行不确定性量化,优化公共卫生干预政策的成本效益评估;以及将酒精消费数据与WHO其他健康指标(如HIV/AIDS、结核病负担)交叉分析,揭示非洲地区多重健康风险因素的协同效应。该数据集的机器就绪格式(Parquet文件与一致Schema)降低了数据预处理门槛,有助于推动非洲健康领域的可重复性研究与跨国家比较分析,特别在实现WHO全球酒精行动计划中减少有害使用酒精的目标上具有关键意义。
以上内容由遇见数据集搜集并总结生成



