electricsheepafrica/africa-who-number-of-current-cigarette-smokers
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-current-cigarette-smokers
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“当前吸烟者数量估计”(M_Est_cig_curr_users)在非洲国家的国家级观测数据,时间跨度为2000年至2030年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO GHO OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖40个非洲国家,总行数为1,320行,并包含按性别等子维度分层的选项。
This dataset contains country-level observations for the WHO GHO indicator "Number of current cigarette smokers, estimate" (M_Est_cig_curr_users) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 40 African nations with 1,320 total rows and includes sub-dimensions such as sex stratification.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲地区当前吸烟者数量的估算指标(M_Est_cig_curr_users)。数据经系统化抽取后,以Parquet格式重新封装,并纳入统一的机器学习友好型存储库。所有数值均采用浮点精度的NumericValue字段,而非显示字符串,同时保留了置信区间上下界(value_low与value_high)。数据集覆盖2000年至2030年间40个非洲国家的观测值,共计1320行记录,并按性别等维度进行了分层。
特点
数据集的核心特点在于其标准化与一致性:列结构清晰,包含指标代码、国家ISO代码、年份、数值估计及置信区间等关键字段,同时支持通过dim1与dim2字段进行分层筛选。数据覆盖了WHO AFRO区域的40个非洲国家,时间跨度达三十年,为纵向分析提供了坚实基础。此外,数据来源权威且遵循CC BY 4.0开放许可,确保了学术研究与机器学习任务的可追溯性与合法性。
使用方法
使用该数据集时,可通过Hugging Face的datasets库进行加载,调用load_dataset函数即可获取训练集。推荐将数据转为Pandas DataFrame进行后续处理。如需分析特定子群体,可基于dim1字段过滤性别或居住地类型,例如筛选Both sexes的全国层面数据;亦可通过country_iso3字段按国家提取时间序列,便于进行跨国家或跨时间段的回归与分类建模。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队整理,源自世界卫生组织全球健康观察站(WHO GHO),聚焦于非洲地区当前吸烟人数的估计指标(M_Est_cig_curr_users)。数据集覆盖2000年至2030年间的40个非洲国家,共计1320条观测记录,旨在为非洲公共卫生领域的机器学习研究提供标准化、可复用的数据资源。作为非洲数据统一存储库的一部分,该数据集解决了区域健康数据碎片化的问题,为烟草控制政策评估、流行病学研究及健康经济学分析提供了关键支撑,对推动非洲本地化健康预测模型的发展具有重要影响力。
当前挑战
该数据集面临的挑战主要体现在两方面:首先,在领域问题上,烟草使用数据在非洲地区常因统计口径不一、调查周期长而存在稀疏性和不一致性,如何利用有限的国家级观测进行高精度的时间序列预测或区域对比分析是核心难题;其次,在构建过程中,数据从WHO OData API原始接口提取时需处理多维度分层变量(如性别、居住地类型),并确保数值字段与置信区间的一致解析,同时剔除格式化的显示字符串以避免数值偏差,这要求精细化的数据清洗与标准化流程,以保障下游机器学习的可靠性。
常用场景
经典使用场景
该数据集聚焦于非洲地区当前吸烟者人数的估算,覆盖2000至2030年间40个非洲国家的观测数据。在公共卫生与流行病学研究中,它常被用于构建时空分布模型,分析非洲大陆烟草消费的历史演变与未来趋势。研究者可借助其分层维度(如性别)进行亚组分析,探究不同人群吸烟行为的异质性,或结合国家社会经济指标开展多变量回归,识别影响吸烟率的关键驱动因素。其结构规整、置信区间完备的特点,使其成为机器学习和时间序列预测的理想训练资源。
衍生相关工作
该数据集的衍生工作涵盖多个前沿方向。其一,研究者将其与WHO其他指标(如酒精消费、肥胖率)联合,构建非洲非传染性疾病风险因素图谱;其二,基于其时间序列特性,衍生出多种预测模型,包括Arima、Prophet及深度学习LSTM网络,用于2030年目标达成度的情景模拟;其三,其置信区间特征被用于研发不确定性敏感的学习算法,如贝叶斯神经网络;此外,该数据集推动了‘Electric Sheep Africa’生态系统的壮大,激发了针对非洲医疗数据的标准化清洗与迁移学习工具的开发。
数据集最近研究
最新研究方向
在全球公共卫生领域,非洲大陆的烟草使用负担正成为前沿研究的焦点。结合世界卫生组织全球健康观察站的数据,该数据集聚焦于2000至2030年间非洲40个国家当前吸烟人数的估算,为解析烟草流行的时空演变提供了关键基准。近年来,伴随非洲国家控烟政策强化与烟草行业渗透的博弈,利用此类细粒度指标追踪干预效果、预测疾病负担趋势成为热点。该数据集的标准化结构与置信区间支持可复现的机器学习建模,推动从区域异质性分析到健康经济学评估的跨学科探索,对实现可持续发展目标中非传染性疾病防控具有深远意义。
以上内容由遇见数据集搜集并总结生成



