electricsheepafrica/africa-who-estimate-of-current-tobacco-use-prevalence-esttobcurr
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimate-of-current-tobacco-use-prevalence-esttobcurr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家当前烟草使用流行率估计(%)的国别观察数据,时间跨度为2000年至2030年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO GHO OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖40个非洲国家,总行数为1,320行,并按性别等子维度进行分层。
This dataset contains country-level observations for the WHO GHO indicator "Estimate of current tobacco use prevalence (%)" (`M_Est_tob_curr`) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 40 African nations with a total of 1,320 rows and is stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,聚焦于非洲地区当前烟草使用流行率的估算指标(M_Est_tob_curr)。数据经系统化采集与整理,以Parquet文件格式封装,并辅以统一的数据模式。所有数值均源自浮点精度字段NumericValue,而非显示字符串,从而确保数值的精确性。数据集覆盖2000年至2030年间40个非洲国家的1,320条观测记录,并依据性别(SEX)等维度进行分层,每一独特的国家、年份与维度组合均构成独立行,便于细粒度分析。
特点
该数据集的核心特质在于其结构化与多维性。它不仅提供烟草使用流行率的点估计值,还纳入了置信区间上下限(value_low与value_high),为统计推断提供了坚实支撑。数据通过性别(如男女全员、男性、女性)等维度进行细分,允许研究者针对特定亚群展开深入探索。此外,数据集中所有观测均明确标注国家ISO代码、WHO区域与时间戳,确保了地理与时间维度的可追溯性,使其成为非洲公共卫生研究中一项高质量的机器学习就绪资源。
使用方法
用户可以借助HuggingFace的datasets库便捷地加载该数据集,例如使用`load_dataset('electricsheepafrica/africa-who-estimate-of-current-tobacco-use-prevalence-esttobcurr')`命令,并将其转换为Pandas DataFrame进行后续分析。为聚焦于特定子群体,可通过过滤dim1字段实现,例如选取`SEX_BTSX`以获取全员层面的数据。时间序列分析则可通过对country_iso3字段进行筛选并按年份排序来完成,从而支持跨国家与跨年度的纵向比较与建模任务。
背景与挑战
背景概述
烟草使用是全球可预防的主要死因之一,尤其在非洲地区,其流行态势与公共卫生政策紧密相关。世界卫生组织全球卫生观测站(WHO GHO)于2000年起系统追踪烟草使用流行率,并发布“当前烟草使用患病率估计”指标(代码M_Est_tob_curr)。该数据集由Electric Sheep Africa团队整理,汇聚了2000年至2030年间40个非洲国家的1,320条观察记录,涵盖性别与城乡等子维度,为非洲控烟研究提供了首个标准化、机器学习就绪的数据仓库。其影响力在于弥合了全球卫生数据与人工智能应用之间的鸿沟,助力政策制定者与研究者从数据驱动角度评估控烟干预效果,并推动可持续发展目标中健康指标的监测。
当前挑战
该数据集所解决的领域挑战,在于非洲大陆长期面临烟草使用流行率数据碎片化、标准不一的问题,导致跨国家、跨时间比较困难,难以精准设计区域性控烟策略。构建过程中,研究人员须应对多重困境:原始WHO数据经由OData API提取后需清洗、统一格式,并整合置信区间(value_low与value_high)以提升统计可靠性;不同国家与年份的缺失值及维度(如性别、城乡)分布不均,增加了模型训练的偏差风险;此外,数据覆盖2030年未来年份,涉及预测与不确定性处理,对抗机器学习模型的泛化能力与时效性带来了双重挑战。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集常用于评估非洲各国及亚群(如性别分层)的烟草使用流行趋势,构建时空演变模型。研究者可借助其2000至2030年的长时序面板数据,追溯烟草消费的变迁轨迹,揭示性别间的差异格局。经典的回归分析、分类任务乃至时间序列预测均以此为基础,通过点估计值与置信区间捕捉不确定性,为刻画非洲大陆的烟草负担提供量化支撑。
解决学术问题
该数据集精准回应了非洲地区烟草使用系统监测缺失的学术困境。长期以来,缺乏统一、可机读的高质量面板数据使得跨国比较与政策评估举步维艰。数据集整合了WHO全球健康观察的权威指标,纳入性别等关键分层变量,从而帮助学者分解混杂因素,评估控烟干预的实际效果。它推动了关于健康不平等、烟草税政策以及可持续发展目标(SDG 3.a)实现进度的实证研究,填补了区域证据空白。
衍生相关工作
围绕该数据集衍生了一系列重要的基础性工作。Electric Sheep Africa项目将其作为非洲健康数据统一仓库的核心组件,推动了数据标准化与可复现研究的范式。基于此,已有研究构建了非洲国家层面的烟草流行预测模型,并与经济、教育等宏观指标联动分析。此外,该数据常与WHO全球烟草流行报告(MPOWER系列)联用,成为验证控烟政策成效的量化基石,也为后续开发更细粒度亚区域模型提供了参考标杆。
以上内容由遇见数据集搜集并总结生成



