electricsheepafrica/africa-who-prevalence-of-current-smokeless-tobacco-use-among-adults
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-current-smokeless-tobacco-use-among-adults
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了世界卫生组织全球健康观察站(WHO GHO)关于非洲国家成年人口中当前使用无烟烟草的流行率(%)的国别观察数据,时间跨度为2005年至2021年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了34个非洲国家,总共有88行数据。
This dataset contains country-level observations for the WHO GHO indicator "Prevalence of current smokeless tobacco use among adults (%)" (`Adult_curr_smokeless`) across African nations, spanning 2005–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 34 African nations with a total of 88 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区成年人当前无烟烟草使用率的流行情况。数据以Parquet格式重新打包,确保结构一致性,并保留了原始数值型字段(NumericValue)作为主要机器学习目标,同时包含置信区间边界(value_low、value_high)。数据集覆盖2005至2021年间34个非洲国家的88条观测记录,每条记录依据国家、年份及性别等分维度(如SEX_BTSX、SEX_FMLE、SEX_MLE)进行分层,形成独特的组合行。
特点
该数据集具有高度结构化与机器学习的友好性,统一了WHO GHO指标的列模式,包括指示码、国家ISO3代码、年份、数值点估计及置信区间等关键字段。其子维度设计允许用户按性别或区域类型进行精细过滤,而仅包含非洲区域(WHO AFRO)的数据聚焦性,使得区域健康分析更为精确。此外,数据集附带清晰的时间戳(last_updated),保障了数据的时效性与可追溯性。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,例如使用load_dataset('electricsheepafrica/africa-who-prevalence-of-current-smokeless-tobacco-use-among-adults'),并转换为Pandas DataFrame进行后续分析。为获取特定维度(如双性别人群的国家层面数据),可基于dim1字段过滤(如筛选以'_BTSX'结尾的行),亦可通过country_iso3列筛选单个国家的时间序列数据(如'KEN'),实现灵活的研究与建模应用。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织全球健康观察站(WHO GHO)的数据进行整理和重新打包,于2021年发布,专注于非洲地区成年人当前无烟烟草使用率的流行病学监测。研究核心在于填补非洲大陆在无烟烟草使用领域长期存在的标准化、机器可读数据空白,为全球公共卫生决策提供统一、可复用的结构化指标。通过整合34个非洲国家2005至2021年的年度观测值,该数据集为探究无烟烟草使用的时空分布、性别差异及地域异质性奠定了关键基础,对推动非洲区域烟草控制政策评估与健康风险建模具有重要学术与实践价值。
当前挑战
该数据集的核心挑战在于解决非洲无烟烟草使用率监测中的显著数据稀疏性与异质性。具体而言,研究领域面临的问题包括:多数非洲国家缺乏系统性的流行病学调查,导致数据覆盖不均衡,部分国家观测年份缺失,且不同来源间的定义与统计口径不一。在数据构建过程中,需从WHO GHO的ODA接口中提取并标准化多个维度(如性别、居住地类型)的细分指标,处理不完整或冲突的置信区间边界值,并确保时间序列在34国间的一致性,这对数据清洗与质量验证提出了严苛要求。
常用场景
经典使用场景
该数据集聚焦于非洲34个国家2005至2021年间成人无烟烟草使用流行率的宏观监测,是研究非洲区域烟草流行态势的标准化数据源。在经典使用场景中,研究人员可以通过性别的分层维度(如全体、男性、女性)及置信区间信息,构建针对非洲成年人群无烟烟草使用率的时间序列分析,揭示不同国家的流行趋势、性别差异及其演变特征。数据集经过清洗与整合,可直接用于分类或回归任务,便于进行跨国的横向比较和纵向趋势建模,为非洲烟草控制政策的循证评估提供定量支撑。
解决学术问题
数据集有效解决了非洲地区无烟烟草使用长期缺乏标准化、公开化定量数据的学术困境,使研究者能够跨越单一国家的局限,开展区域性的流行病学比较研究。它支持对无烟烟草使用率随时间波动的动态归因分析,例如探讨社会经济、政策干预或文化习俗等因素对使用率的影响。该数据集的意义在于填补了全球健康议题中非洲数据的空白,为验证烟草控制框架的适用性、评估可持续发展目标中健康相关指标的进展提供了可靠的基础数据,推动了全球控烟研究的非洲视角融入。
衍生相关工作
该数据集作为Electric Sheep Africa统一数据仓库的组成部分,奠定了非洲健康领域多项衍生研究的基础。衍生工作包括构建面向低资源环境的非洲烟草使用预测模型,利用时间序列方法(如ARIMA、LSTM)预测未来流行率变化;开展无烟烟草与吸烟行为的联合分析,探索不同烟草产品使用模式的共变关系;以及开发可解释的机器学习模型,识别驱动国家间使用率差异的关键特征(如GDP、教育水平)。这些工作深化了对非洲无烟烟草使用决定因素的理解,并催生了面向区域健康治理的智能决策支持工具。
以上内容由遇见数据集搜集并总结生成



