electricsheepafrica/africa-who-alcohol-0000001739
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-0000001739
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家15岁以上人群过去30天内大量饮酒(年龄标准化百分比)的指标数据(SA_0000001739)。数据集覆盖了2000年至2020年期间46个非洲国家的数据,共计2898行。数据来源于WHO GHO OData API,并以Parquet文件格式重新打包,包含数值估计、置信区间、显示字符串等信息。数据集还提供了按性别等维度分层的子维度数据。
This dataset contains country-level observations for the WHO GHO indicator "Alcohol, heavy episodic drinking (15+) past 30 days (%), age-standardized" (SA_0000001739) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家15岁以上人群过去30天内重度间歇性饮酒比例的年龄标准化指标(代码SA_0000001739)。数据经过系统化抽取与整合,摒弃了原始的显示字符串,直接采用高精度浮点数值(NumericValue)作为核心观测值,并保留了置信区间上下界(value_low、value_high)。所有记录按国家、年份及维度(如性别)组织,共计2898行,覆盖46个非洲国家及2000至2020年的时间跨度,最终以Parquet格式封装,形成具备一致架构的机器学习就绪数据集。
特点
该数据集具有覆盖广泛且维度清晰的特点,其时间跨度为二十一年,空间上囊括了WHO非洲区域绝大多数国家。数据不仅提供点估计值,还附带了置信区间,便于进行不确定性分析与统计推断。此外,数据集内置了性别等分层维度,每条记录通过dim1与dim2字段标识具体亚组,如男性、女性或两性合计,支持用户灵活选择或汇总不同粒度下的观测,适用于分类与回归等多样化的机器学习任务。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,使用load_dataset函数即可获得包含全部记录的训练集。加载后,可借助to_pandas方法转换为DataFrame进行进一步分析。为获取全国层面的两性合计数据,建议对dim1字段进行过滤,筛选出以_BTSX结尾或为空值的行。若需研究特定国家的时间趋势,可按country_iso3字段(如KEN代表肯尼亚)筛选并以year排序,便于构建时序模型或进行跨区域对比分析。
背景与挑战
背景概述
酒精滥用是威胁全球公共卫生的重大议题,尤其在非洲大陆,过量饮酒导致的健康负担与经济损失尤为严峻。为应对这一挑战,世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测各成员国酒精消费模式,并发布标准化指标数据。在此背景下,由Electric Sheep Africa团队于近年整合创建的“africa-who-alcohol-0000001739”数据集,聚焦于非洲46国15岁以上人群过去30天内重度间歇性饮酒的年龄标准化比例,时间跨度覆盖2000至2020年。该数据集以CC BY 4.0许可开放,旨在为非洲健康研究提供机器学习就绪的标杆数据,推动区域酒精政策评估与流行病学建模,对全球健康数据科学具有重要的工具性价值。
当前挑战
该数据集所应对的核心领域问题在于,非洲大陆长期缺乏高质量、标准化的酒精消费纵向数据,阻碍了跨国家、跨时期的饮酒行为比较与政策效果评估。传统统计年鉴中数据分散、口径不一,且常缺失置信区间等关键质量度量。在构建过程中,团队面临多元挑战:首先,需从WHO OData API中精准抽取并清洗46个国家二十余年的观测数据,处理缺失值、异常值与维度分层(如性别)带来的数据稀疏性;其次,必须统一各国编码体系与时间对齐规则,确保2,898条记录在机器学习流程中的一致性与可复现性;最后,还需保留置信区间字段以便建模时校准不确定性,这对模型鲁棒性提出了更高要求。
常用场景
经典使用场景
该数据集涵盖了2000年至2020年间46个非洲国家的重度间歇性饮酒率统计数据,是研究非洲大陆酒精消费模式与公共卫生变迁的经典资源。研究者可依托其中按性别、地区等维度分层的数据,构建回归或分类模型,用于刻画不同国家与时间段内饮酒行为的变化趋势。通过整合置信区间信息,该数据集还支持对估计值不确定性进行量化分析,从而在时间序列预测与跨区域比较研究中扮演核心角色。
衍生相关工作
该数据集衍生出的一系列经典研究工作,集中在利用机器学习和统计建模方法解析酒精消费与经济发展、疾病负担之间的复杂关联。基于此数据构建的预测模型,能够模拟不同干预情景下的健康产出变化,为资源有限地区的健康政策优先排序提供实证参考。与此同时,结合其他健康与环境数据集进行的多维度分析,也推动了跨学科融合研究的发展,成为非洲地区健康数据科学探索的重要基石。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区15岁以上人群在过去30天内重度间歇性饮酒的年龄标准化比例,是WHO全球健康观察(GHO)指标体系中衡量酒精危害的关键维度。在撒哈拉以南非洲非传染性疾病负担持续攀升的背景下,这一指标成为联结酒精消费模式与公共卫生政策评估的前沿研究热点。当前,研究者利用该数据集进行跨国家、跨性别的时空流行病学分析,结合社会经济与环境变量,构建预测性回归模型,以揭示非洲区域酒精相关健康风险的动态演变。该数据集的标准化schema和置信区间字段为机器学习驱动的政策模拟提供了可靠基础,其涵盖的46个非洲国家长达二十年的记录,使其在追踪全球酒精控制措施效果、支撑世界卫生组织可持续发展目标(SDG 3.5)的实证评估中具有不可替代的学术价值与现实影响力。
以上内容由遇见数据集搜集并总结生成



