electricsheepasia/asia-who-estimate-of-current-tobacco-use-prevalence-esttobcurr
收藏Hugging Face2026-05-29 更新2026-05-31 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepasia/asia-who-estimate-of-current-tobacco-use-prevalence-esttobcurr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1,485个观测值,覆盖45个亚洲国家,时间范围为2000年至2030年,核心指标为当前烟草使用流行率估计(%)。数据来源于世界卫生组织(WHO)全球健康观察站(Global Health Observatory),经过Electric Sheep Asia重新打包。数据集包含多个列,如指标代码、国家ISO3代码、WHO区域、年份、性别维度类型、数值、置信区间等,用于分析烟草使用流行率的趋势和差异。
This dataset contains 1,485 observations of Estimate of current tobacco use prevalence (%) data across 45 Asia countries, spanning 2000–2030, covering 1 distinct indicator. The data is sourced from the WHO Global Health Observatory, repackaged by Electric Sheep Asia, and includes columns such as indicator code, country ISO3 code, WHO region, year, disaggregation dimensions, numeric values, and confidence intervals for time-series and comparative analysis.
提供机构:
electricsheepasia
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO),由Electric Sheep Asia重新封装后发布在HuggingFace平台上。数据涵盖了2000年至2030年间亚洲45个国家的当前烟草使用率估算值,共计1485条观测记录。构建过程中,原始数据被统一规范化,形成了标准化的模式架构,包含国家ISO3代码、年份、性别分层维度(如整体、男性、女性)以及对应的数值估计值及其置信区间,最终以Parquet格式打包,便于机器学习任务的直接加载。
特点
数据集的核心特点在于其纵向时间序列结构与地理覆盖的广度,横跨31年时间轴并囊括亚洲45个主要国家,为区域烟草使用趋势分析提供了扎实的数据基础。每条记录均附带数值估计值的上下置信限,反映了估算的不确定性。此外,数据支持按性别进行分层分析,通过dim1字段区分整体(SEX_BTSX)、女性(SEX_FMLE)和男性(SEX_MLE)三个亚组,使得研究者能够深入洞察不同人群的烟草使用模式差异。
使用方法
使用方式极为便捷,用户通过HuggingFace的datasets库调用load_dataset函数即可将数据载入为Pandas DataFrame格式,便于后续探索性分析。典型操作包括按国家筛选子集以聚焦特定区域的时间序列,或按指标代码过滤并可视化单一指标的年度变化趋势。用户还可通过透视表将数据重塑为国家×年份的矩阵形式,从而构建面板数据以开展回归建模或时序预测任务,充分释放其作为结构化表格数据的分析潜力。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2026年发布,并由Electric Sheep Asia重新整理,聚焦亚洲45个国家在2000至2030年间当前烟草使用流行率(%)的估计值。作为全球公共卫生领域的关键议题,烟草使用是导致多种非传染性疾病(如心血管疾病、癌症)的主要风险因素。该数据集通过提供标准化、可比较的纵向数据,为研究亚洲地区烟草负担的时空演变、评估控烟政策效果以及预测未来流行趋势提供了基础性资源。其影响力在于填补了区域层面高频次、多国别烟草流行数据的空白,支持了从流行病学到卫生经济学的跨学科研究,并已被纳入HuggingFace Datasets平台,便于机器学习模型的直接调用与复现。
当前挑战
该数据集所应对的领域问题核心在于:亚洲各国烟草使用监测体系的碎片化与统计口径差异,导致难以进行跨国比较和整体趋势分析。构建过程中的挑战包括:1)数据标准化——跨越45国,不同来源的原始数据在年龄分组、性别维度定义(如SEX_BTSX、SEX_FMLE、SEX_MLE)及估算方法上存在异质性,需要统一映射;2)时间序列的完整性——部分国家早期年份数据缺失,且预测值至2030年的精度依赖WHO模型假设,存在信度不确定性区间(如示例中36.3[17.8-54.8]);3)许可与归属的合规处理——原始数据来源于WHO,重新打包需确保CC-BY-4.0许可条款的遵循,同时维护数据溯源链,避免因二次分发导致语义损失。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集被广泛用于构建亚洲各国烟草使用流行率的时空分布模型。研究人员常将其作为时间序列数据,探究2000年至2030年间45个亚洲国家在烟草使用率上的演变趋势,并通过性别分层维度分析不同人群的暴露差异。其经典用法包括跨国家横截面比较、历年纵向追踪以及用于预测2030年烟草控制目标的达成度,为区域性健康政策评估提供了量化基石。
解决学术问题
该数据集核心解决了亚洲地区烟草使用流行病学数据碎片化与标准化缺失的难题。此前,学者们难以获取统一口径的跨国面板数据,以致时空比较分析受阻。借助该数据集,研究者能够系统评估《世界卫生组织烟草控制框架公约》在亚洲的实施效果,量化性别不平等的健康风险,以及预测2030年可持续发展目标中烟草相关指标的实现进度。其意义在于填补了亚洲区域健康数据基础设施的关键缺口,推动了循证决策的科学化进程。
衍生相关工作
基于该数据集已衍生出多项标志性工作,包括构建亚洲烟草使用负担的贝叶斯时空模型,以及开发用于预测2030年控烟目标达成概率的统计学习框架。部分学者将其与全球疾病负担(GBD)数据融合,探究烟草流行与慢性非传染性疾病之间的关联。此外,该数据集也被用于验证面板数据模型在低资源环境下的外推能力,催生了关于性别分层健康指标的标准化处理方法。这些工作共同推动了亚洲地区卫生计量学的方法论进步。
以上内容由遇见数据集搜集并总结生成



