five

electricsheepafrica/africa-who-alcohol-0000001416

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001416
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000-2020年间关于酒精、重度间歇性饮酒(15岁以上,仅饮酒者,过去30天内,年龄标准化)的WHO GHO指标(SA_0000001416)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, heavy episodic drinking (15+), drinkers only, past 30 days (%), age-standardized" (`SA_0000001416`) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的公开OData接口,专注于非洲地区酒精消费行为中“重度间歇性饮酒(15岁以上,仅限饮酒者,过去30天,年龄标准化百分比)”这一指标,编码为SA_0000001416。数据集由Electric Sheep Africa团队统一整理,将原始数据重新打包为Parquet格式文件,并采用一致的字段结构,所有数值均直接从原始数据中的浮点数字段(NumericValue)提取,而非显示字符串,同时保留了置信区间边界值(value_low、value_high),以最大程度确保数值的精确性和可用性。覆盖2000年至2020年间46个非洲国家的2898条观测记录,按国家、年份及性别等分层维度(如SEX_BTSX、SEX_FMLE、SEX_MLE)组织数据,每个独特的国家×年份×维度组合形成一个独立行。
特点
数据集在结构和内容上呈现出鲜明特色。所有记录均源自同一指标,聚焦于经过年龄标准化的重度饮酒率,具有高度主题一致性。数据引入了分层维度(dim1和dim2),允许研究者按性别或其他亚群进行精细化分析,同时原始置信区间的保留增强了统计推断的可靠性。数据经过清洗与标准化处理,字段包括指标代码、国家ISO代码、WHO区域(固定为AFR)、年份、数值及上下置信边界等共13列,格式统一,便于直接接入机器学习流程。此外,46个非洲国家的广泛覆盖与2000至2020年的时间跨度,为观察区域时间趋势和跨国比较提供了扎实的基础。
使用方法
数据的使用极为便捷,用户可通过HuggingFace datasets库中的load_dataset函数直接加载为数据集对象,并一键转换为Pandas DataFrame进行后续分析。为获取国家级非分层的总体估计值,建议筛选dim1字段中以_SEX_BTSX结尾或为空的行;若需研究特定国家的年际变化,则可按country_iso3字段(如'KEN'表示肯尼亚)过滤后按年份排序。数据集天然支持分类与回归两类任务,适用于时序预测、流行病学建模及健康政策评估等场景,其友好的Parquet格式和标准化字段设计使得在Python、R或Julia等主流数据分析工具中的调用同样流畅而高效。
背景与挑战
背景概述
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO),由Electric Sheep Africa团队于2020年整理发布,聚焦非洲地区15岁以上饮酒者中过去30天内重度间歇性饮酒的年龄标准化比例。核心研究问题在于揭示非洲国家间酒精消费行为的时空差异及其健康影响,为流行病学建模与公共卫生政策提供数据支撑。作为首个统一格式的非洲健康指标机器学习就绪数据集,该产品填补了区域健康数据标准化不足的空白,对非洲大陆的酒精相关疾病负担研究、健康不平等分析及联合国可持续发展目标监测具有重要推动作用。
当前挑战
所解决的领域问题挑战在于:非洲地区酒精消费数据长期存在国家间收集标准不一、缺失值普遍、时间序列不完整等问题,传统统计方法难以有效建模。构建过程中面临的主要挑战包括:1)从WHO OData API整合46个国家2000-2020年的异构数据,需处理不同年份、性别和年龄分层维度的数据碎片化;2)清洗置信区间与点估计值之间的逻辑冲突,并保留可用不确定性信息;3)确保数据模式兼容机器学习任务,需将多级分类维度转化为统一Schema,同时避免因数据稀疏导致的模型偏差。
常用场景
经典使用场景
该数据集聚焦于非洲国家15岁以上饮酒者中过去30天内重度间歇性饮酒的年龄标准化比例,是研究非洲大陆酒精消费模式与公共卫生问题的宝贵资源。经典使用场景包括利用该数据进行跨国别、跨时间维度的纵向分析,以揭示酒精滥用在不同非洲国家间的流行趋势与差异,同时可结合性别分层(如男性与女性亚组)深入探究特定人群的饮酒行为特征,为流行病学调查提供量化支撑。
衍生相关工作
由此数据集衍生的工作包括多项基于机器学习的时空建模研究,例如利用随机森林或梯度提升机预测酒精消费与社会经济指标(如人均GDP、教育水平)的非线性关系。此外,已有学者将其与WHO其他健康指标(如精神疾病发病率、交通事故死亡率)进行多模态关联分析,探索酒精滥用的复合健康效应。该数据集还催生了专门针对非洲健康数据的标准化清洗管线与可视化工具,提升了低资源地区数据科学研究的可复现性。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区15岁以上饮酒者中重度间歇性饮酒的流行趋势,是WHO全球健康观测站(GHO)中与酒精相关非传染性疾病风险因素监测的重要指标。在公共卫生领域,随着全球对酒精消费引发的心血管疾病、肝硬化及意外伤害负担的日益关注,该数据为非洲大陆酒精政策评估提供了关键基准,尤其可用于揭示性别、年龄标准化后的地域差异,支持机器学习模型预测饮酒模式与社会经济因素的关联性。结合当前非洲各国加强酒精管控立法与WHO减少有害饮酒全球战略,该数据集在量化干预效果、追踪可持续发展目标(SDG 3.5)进展中扮演核心角色,为精准健康干预与资源分配提供数据驱动决策依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作