electricsheepafrica/africa-who-heavy-episodic-drinking
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-heavy-episodic-drinking
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“15-19岁青少年重度间歇性饮酒(仅饮酒者)在过去30天内的百分比”(SA_0000001820)在非洲国家的国家级观察数据,时间跨度为2016年至2019年。这是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Heavy episodic drinking (youth 15 -19 years), drinkers only, past 30 days (%)" (`SA_0000001820`) across African nations, spanning 2016–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区15至19岁青少年中过去30天内重度间歇性饮酒的百分比。原始数据经系统性抽取与清洗后,以Parquet格式重新封装,遵循统一的架构规范。数据记录以`NumericValue`浮点数值为主,同时保留置信区间上下限(`value_low`、`value_high`),并以国家-年份-维度组合生成独立观测行,涵盖46个非洲国家从2016年至2019年的276条记录。
特点
数据集的核心特质在于其多维分层结构与ML就绪特性。除基本指标外,包含性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等子维度,允许用户按`dim1`与`dim2`字段精确筛选或聚合分析。所有数值均来自原生浮点字段,避免显示字符串的精度损失。数据覆盖WHO非洲区域全境,时间跨度为四年,且提供置信区间范围,为卫生政策研究与建模提供了可靠的概率化支撑。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载,调用`load_dataset`后直接转换为Pandas DataFrame进行后续分析。按需过滤时,可利用`dim1`字段筛选特定性别层次(如以`_BTSX`结尾表示两性合计),或针对指定国家(如肯尼亚`KEN`)按年份排序提取时间序列。数据架构兼容表格分类与回归任务,亦可作为跨区域健康指标比较或预测模型的特征输入。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于近年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API。数据集聚焦于非洲地区青少年(15-19岁)在过去30天内仅限饮酒者中的重度间歇性饮酒比例,指标代码为SA_0000001820。作为非洲大陆健康数据统一化、机器学习就绪的重要实践,该数据集覆盖46个非洲国家、时间跨度为2016至2019年,共包含276条记录。其核心研究问题在于提供非洲青少年酒精消费行为的标准化量化指标,填补该区域在高危饮酒行为监测领域的数据空白,为公共卫生干预、流行病学建模及跨国家比较研究提供基础。数据集及其所属的Electric Sheep Africa项目显著提升了非洲健康数据的可及性与可用性,对全球健康不平等议题及可持续发展目标中的健康指标监测具有深远影响。
当前挑战
数据集所解决的领域问题是如何量化非洲青少年中高危饮酒行为的流行病学负担,这一挑战源于现有健康数据在非洲地区的高度碎片化、格式不一及更新滞后,使得跨境比较与机器学习模型的训练极为困难。在构建过程中,团队面临从WHO GHO API高效抓取数据并确保数据完整性的难题,包括处理不同年份的置信区间字段缺失、应对指标的分层维度(如性别、居住地类型)导致的记录冗余,以及将原始字符串格式的数值转化为统一的浮点精度字段。此外,来自46个国家、多年份的数据在编码一致性(如ISO国家代码、区域代码)和发布时间上存在差异,需要通过严格的清洗与标准化流程才能形成可复用的Parquet格式数据集,这极大增加了数据整合的技术复杂度。
常用场景
经典使用场景
该数据集聚焦于非洲15至19岁青少年中仅饮酒者过去30天内重度间歇性饮酒的比例,作为世界卫生组织全球卫生观察站的关键指标,其经典使用场景在于构建预测模型,用于评估和监测非洲各国青少年酒精滥用行为的流行态势。研究者可基于年份、国家及性别等分层维度,运用分类或回归方法分析饮酒模式的时间演变与区域差异,从而为公共卫生决策提供量化依据。
解决学术问题
该数据集有效解决了非洲青少年酒精消费行为研究中长期存在的数据碎片化与标准化不足的问题,弥合了区域健康指标在跨国比较与纵向追踪中的关键缺口。通过提供统一结构化的数值型指标及其置信区间,它赋能学者开展关于饮酒行为社会决定因素、性别差异以及公共卫生干预效果的定量分析,推动了全球健康不平等领域的实证研究向更细粒度方向发展。
衍生相关工作
该数据集已催生出多项衍生性工作,包括构建非洲青少年饮酒行为的时间序列基准模型、开发用于预测健康风险的多指标联合分析管道,以及与教育、经济等其他领域数据集融合形成综合性非洲健康数据库。此外,它作为Electric Sheep Africa项目的一部分,推动了面向非洲大陆的标准化机器学习数据集生态建设,促进了跨学术团队在算法公平性与区域代表性方面的合作研究。
以上内容由遇见数据集搜集并总结生成



