five

electricsheepafrica/africa-who-alcohol-0000001823

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001823
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在世界卫生组织全球健康观察站(WHO GHO)指标“旅游消费酒精(以纯酒精升计),三年平均值”(SA_0000001823)的国家级观测数据,时间跨度为2000年至2022年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察站的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, tourist consumption (in litres of pure alcohol), three-year average" (`SA_0000001823`) across African nations, spanning 2000–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区酒精消费指标——即旅客人均纯酒精消费量(升)的三年移动平均值(指标代码SA_0000001823)。原始数据经由Electric Sheep Africa项目统一整理,以Parquet格式存储,并遵循一致的字段结构。所有数值均采用浮点精度的NumericValue字段,而非显示字符串,同时保留了可获得的置信区间上下界(value_low与value_high),确保数据适用于机器学习建模。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,命令为`load_dataset('electricsheepafrica/africa-who-alcohol-0000001823')`,返回的数据集可作为pandas DataFrame进行后续分析。推荐使用dim1字段筛选特定子群体(如以'_BTSX'结尾的性别总计项)获取国家层面的全国数据,或按country_iso3与year字段排序以提取单个国家的时间序列,便于进行时序建模或回归分析。
背景与挑战
背景概述
酒類消費的監測與分析是公共衛生領域的重要課題,尤其在非洲地區,酒精濫用與多種非傳染性疾病、社會問題密切相關。世界衛生組織全球衛生觀測站(WHO GHO)長期收集並發布各國酒精消費數據,以支持循證政策制定。在此背景下,Electric Sheep Africa團隊於2022年整合了WHO GHO的官方數據,創建了africa-who-alcohol-0000001823數據集,聚焦非洲47個國家2000至2022年間的旅遊者人均純酒精消費量(三年移動平均值)。該數據集以統一的機器學習友好格式(Parquet)封裝,並提供置信區間等附帶信息,為研究非洲酒精消費模式、評估公共衛生干預效果及推動區域健康政策提供了標準化、可復現的數據基礎。
当前挑战
該數據集所面臨的核心挑戰來自其解決的領域問題與構建過程。在領域層面,酒精消費數據的時空變異性與統計估計的不確定性構成主要障礙:旅遊者消費量需通過三年平均平滑短期波動,但不同國家報告質量與測量方法差異顯著,易引入偏差;同時,缺乏分性別、年齡層等亞群信息限制了精細化分析。構建過程中,原始WHO數據需經API抓取、異構格式統一、缺失值處理及置信區間保留,特別是在非洲部分國家歷史數據不完整或存在斷層的情況下,確保時間序列連貫性與跨國可比性尤為艱巨。此外,數據集的稀疏性(1081條記錄覆蓋47國23年)對機器學習模型的魯棒性與泛化能力提出嚴峻考驗,需謹慎處理過擬合與區域特異性偏倚問題。
常用场景
经典使用场景
该数据集记录了非洲各国2000至2022年间按三年平均计算的游客纯酒精消费量(升),涵盖47个非洲国家的1081条观测记录。经典使用场景包括探索非洲大陆游客酒精消费的时空分布规律,识别高消费与低消费国家集群,以及分析消费趋势的长期演变。研究者可通过国家代码和时间维度进行精细切片,为公共卫生领域的跨国比较研究提供标准化数据基础。
解决学术问题
数据集主要解决了非洲地区游客酒精消费量化数据匮乏的学术困境。传统研究常因数据碎片化或口径不一致而难以进行横向对比,而该数据集借助WHO官方来源的统一指标和结构化格式,填补了游客行为对非洲健康影响评估的鸿沟。其意义在于支撑旅游健康影响建模、酒精政策评估以及可持续发展目标中健康指标的监测,推动区域流行病学从定性描述向定量分析跨越。
实际应用
在实际应用中,该数据可作为非洲多国旅游部门制定酒精管控政策的参考依据。例如,结合当地饮酒率与游客消费数据,可以评估旅游经济收益与酒精相关健康风险的平衡点。公共卫生机构也可将其用于跨地域的酒精消费预测模型,辅助分配医疗资源。此外,旅游企业可据此优化服务内容,在尊重本地文化的同时倡导负责任的饮酒行为。
数据集最近研究
最新研究方向
该数据集聚焦非洲地区游客酒精消费量(纯酒精升数,三年均值)的追踪与建模,是WHO全球卫生观察站(GHO)指标SA_0000001823的标准化呈现。当前前沿研究方向集中于利用该时序数据(2000–2022年,覆盖47个非洲国家)进行疾病负担归因分析,尤其是结合酒精消费与肝硬化、癌症等非传染性疾病风险的关联建模。在公共卫生热点事件中,该数据集为评估非洲旅游复苏对酒精相关伤害的影响提供了关键数据支持——世界卫生组织正推动基于证据的酒精政策,而该数据集可帮助识别高消费模式国家,支持制定税收调整与广告限制等干预措施。其开放许可(CC BY 4.0)及机器学习就绪格式(Parquet)显著提升了数据复用性,促进跨国比较与预测性分析,对实现可持续发展目标中减少酒精相关死亡的目标具有重要实证价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作