electricsheepafrica/africa-who-prevalence-of-current-tobacco-smoking-among-adults
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-current-tobacco-smoking-among-adults
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家成年人当前吸烟率(%)的国别观察数据,时间跨度为2010年至2021年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖31个非洲国家,共计77行记录,并包含性别等子维度。
This dataset contains country-level observations for the WHO GHO indicator "Prevalence of current tobacco smoking among adults (%)" (`Adult_curr_tob_smoking`) across African nations, spanning 2010–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 31 African nations with a total of 77 rows and includes sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球健康观察站(WHO GHO)的官方OData应用程序编程接口,聚焦于非洲地区成人当前烟草使用流行率这一关键健康指标,覆盖2010年至2021年间共计31个非洲国家的观测数据。原始数据经抽取、清洗后,以Parquet格式重新封装,形成具有统一数据模式且可直接用于机器学习流水线的结构化数据集合。数据值精确来源于浮点精度的数值字段,并同步保留置信区间上下界信息,以实现对估计不确定性的忠实反映。
特点
数据集具备多维度分层特性,核心观测变量包括国家代码、年份、数值估计及置信区间,同时嵌入了性别与居住区域类型等子维度信息,便于研究人员进行细粒度分析与比较。全部77条记录均归属于WHO非洲区域,国家覆盖范围广泛,从安哥拉到津巴布韦等不一而足。数据的呈现秉持高度一致性,每个国家-年份-维度组合构成独立行,且所有字段均经过标准化命名与类型定义,极大降低了跨数据集整合的复杂度。
使用方法
用户可通过HuggingFace Datasets库以简洁的代码加载整个数据集,并直接转换为Pandas数据框进行后续分析。若需聚焦于全国整体水平的估计值,可借助维度筛选逻辑提取同时包含两性数据或缺失性别标注的样本;对于跨国比较或时间趋势分析,则可依据国家ISO3代码及年份字段进行过滤与排序操作。此外,置信区间字段为开展贝叶斯或不确定性量化研究提供了天然支持,而分类与回归双任务标记属性的赋予,使得该数据集能够灵活适用于预测模型的构建与评估。
背景与挑战
背景概述
烟草使用是全球可预防死亡的首要原因之一,尤其在非洲地区,随着经济发展与人口增长,烟草流行态势趋于严峻。世界卫生组织(WHO)全球卫生观测站(GHO)自2010年起系统监测非洲31国成年人当前烟草吸烟率,该数据集由Electric Sheep Africa团队于2021年整合发布,旨在提供机器学习就绪的标准化健康指标资源。其核心研究问题聚焦于非洲国家烟草使用的时空分布特征与人口亚群差异,通过纳入性别等分层维度,支持精准公共卫生干预策略的制定。作为首个面向非洲大陆的统一烟草流行数据仓库,该数据集为流行病学建模、政策效果评估及健康不平等研究提供了关键基础,有力推动了全球健康数据科学在发展中地区的应用。
当前挑战
该数据集面临的领域挑战在于非洲烟草流行监测体系尚未完善,部分国家存在统计口径不一、调查时间稀疏或数据缺失问题,导致跨年度与跨国可比性受限;同时烟草使用常与其他健康风险因素交织,单一指标难以完整刻画复杂行为模式。在构建过程中,挑战源自WHO原始OData API的异构数据结构,需将不同国家、年份与亚群的观测量化为统一模式,且置信区间边界等元信息分布不均,要求精细化处理缺失值与数据清洗。此外,样本量仅77条记录,限制了复杂模型训练与深入分层分析,凸显了小样本低资源地区健康数据集构建的普遍困境。
常用场景
经典使用场景
该数据集收录了2010至2021年间31个非洲国家成年人当前烟草使用流行率的标准化指标,涵盖按性别分层的数据。研究者可将其用于构建时空趋势分析模型,描绘非洲大陆烟草消费的演变轨迹,探索社会经济、政策干预与吸烟率之间的内在关联。借助其规整的指标代码与置信区间字段,若开展跨区域比较研究,该数据可作为描述性统计与回归分析的核心输入,尤其适合纵向面板数据建模与生态学分析。
实际应用
在实际应用层面,该数据集为非洲各国卫生部门与全球化健康机构提供了关键的监测工具。通过分析这些数据,政策制定者能够精准识别吸烟率上升的脆弱群体与高危区域,从而优化控烟资源的配置。同时,结合经济增长与教育水平等宏观变量,该数据有助于构建预测模型,预判未来烟草流行趋势,为制定区域性健康战略和全球健康治理贡献力量。
衍生相关工作
基于该数据,衍生出了多项探讨烟草使用与社会发展关系的经典工作。例如,研究者利用该指标融合人均GDP与教育指数,构建了多国面板数据进行分析,揭示了经济发展初期吸烟率上升而后随健康意识普及下降的库兹涅茨曲线现象。另有工作将其与烟草税收、广告禁令等政策变量关联,运用双重差分法评估具体干预措施的有效性。此外,对数据中置信区间信息的挖掘,催生了不确定性量化在健康指标时空建模中的应用探索,丰富了机器学习在公共卫生领域的研究范式。
以上内容由遇见数据集搜集并总结生成



