electricsheepafrica/africa-who-estimate-of-current-cigarette-smoking-prevalence-estcigcurr
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimate-of-current-cigarette-smoking-prevalence-estcigcurr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2030年间世界卫生组织全球健康观察站指标当前吸烟率估计值(%)(`M_Est_cig_curr`)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界值(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator Estimate of current cigarette smoking prevalence (%) (`M_Est_cig_curr`) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,聚焦于非洲地区当前吸烟率(M_Est_cig_curr)这一关键健康指标。数据以Parquet文件格式重新打包,确保了模式的一致性,并严格采用了浮点精度字段NumericValue,而非展示字符串,从而保证了数值的精确性。数据集囊括了40个非洲国家在2000年至2030年间的时间序列观测值,共计1320条记录,所有数据均限定在WHO AFRO区域范围内。对于按性别或居住区域类型等维度分层的指标,数据集为每个国家、年份及维度的独特组合生成独立行,并提供了相应的置信区间上下限,极大地方便了后续的统计分析。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,并利用pandas进行深度数据分析。例如,使用`load_dataset`函数加载后,可转换为DataFrame形式。通过筛选`dim1`字段中以`_BTSX`结尾或为空的行,可轻松获取仅包含总体性别的全国级数据。此外,按`country_iso3`字段过滤并结合`year`排序,即可提取特定国家(如肯尼亚)的吸烟率时间序列。这种灵活的数据提取机制为用户开展区域健康评估、建模预测或政策影响分析提供了直观且高效的操作路径。
背景与挑战
背景概述
烟草使用是全球可预防疾病与死亡的主要风险因素之一,尤其在非洲地区,其流行态势与健康负担日益受到国际关注。由世界卫生组织全球健康观察站(WHO GHO)维护的“当前吸烟率估计(%)”指标,旨在系统追踪各国成人烟草消费状况。该数据集由Electric Sheep Africa于近年整理并发布,涵盖了2000至2030年间40个非洲国家的国家级观测数据,共计1320条记录,指标代码为M_Est_cig_curr。核心研究问题聚焦于量化非洲地区不同性别、年龄及居住地人群的吸烟流行率,为公共卫生政策制定和干预效果评估提供关键证据。该数据集的标准化格式与机器友好特性,极大地降低了科研人员与数据分析师的使用门槛,推动了非洲健康数据在全球健康计量与机器学习领域的整合与应用。
当前挑战
该数据集所面对的挑战首先根植于领域问题的复杂性:烟草吸烟率的时空异质性显著,需精准刻画国家内部及国家间因社会经济、文化法律等因素导致的流行差异,同时应对长期趋势建模中缺失数据与测量误差的干扰。其次,在数据构建过程中,不同原始数据来源的采样方法、定义口径与质量控制标准的差异,使得整合与标准化成为首要障碍。此外,数据集中存在的置信区间不完整、维度分类(如性别、城乡)的稀疏性,以及未来年份的预测值与实测值之间的可信度平衡,亦对模型训练与推断提出了稳健性与外推能力的严峻考验。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于分析烟草使用在不同性别、国家及年份间的分布特征。研究者可基于时空维度与性别分层,构建模型以揭示当前吸烟率的变化趋势,尤其适用于描述性统计与可视化分析,以洞悉非洲大陆控烟政策的潜在影响。
解决学术问题
该数据集有效解决了非洲区域吸烟率数据碎片化与不一致的核心问题,为学术研究提供了标准化、可复现的纵向指标。它使得跨国家、跨性别的吸烟率比较成为可能,支撑了健康不平等、烟草流行预测及疾病负担归因等领域的量化分析,推动了循证公共卫生决策的发展。
实际应用
在实际应用中,该数据集被各国卫生部门与国际组织用于监测控烟目标的进展,评估烟草税、广告禁令等政策的实施效果。同时,它也为非政府组织设计健康干预项目提供了基线数据,助力资源优先配置与针对性健康教育活动的开展。
数据集最近研究
最新研究方向
该数据集聚焦于非洲大陆当前卷烟吸烟率的全球健康观测指标,为流行病学建模与公共卫生政策评估提供了关键数据支撑。结合世界卫生组织(WHO)的全球健康观测平台,这一数据集不仅涵盖2000年至2030年间的纵向时间序列,还按性别、居住区域等维度进行分层,使得研究者能够深入探索吸烟率在非洲各国随人口特征变化的动态轨迹。当前,非洲正面临烟草使用与传染病负担并存的健康挑战,该数据集的出现填补了该地区高质量、机器可读健康数据的空白,尤其适用于构建预测模型,以评估控烟政策在不同人口亚群中的潜在干预效果。同时,作为Electric Sheep Africa项目的一部分,它推动了非洲本土数据科学的发展,助力实现可持续发展目标中关于非传染性疾病防控的具体指标。
以上内容由遇见数据集搜集并总结生成



