electricsheepafrica/africa-who-prevalence-of-daily-smokeless-tobacco-use-among-adults
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-daily-smokeless-tobacco-use-among-adults
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站指标非洲国家成年人每日使用无烟烟草的流行率(%)的国家级观察数据,时间跨度为2005年至2021年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖20个非洲国家,共58行数据,按WHO AFRO区域筛选。
This dataset contains country-level observations for the WHO GHO indicator Prevalence of daily smokeless tobacco use among adults (%) across African nations, spanning 2005–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 20 African nations with a total of 58 rows, filtered by WHO AFRO region.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的开放数据接口,聚焦于非洲地区成年人每日无烟烟草使用率的流行情况。研究团队从WHO AFRO区域的OData API中直接提取原始指标数据,并以Parquet格式进行统一封装,确保数据结构的标准化与机器学习任务的兼容性。数据集中所有数值均采用`NumericValue`字段的浮点精度值,而非字符串形式的显示值,同时保留可用的置信区间上下界,为后续统计分析提供了可靠的定量基础。
特点
该数据集涵盖2005年至2021年间20个非洲国家的58条观测记录,按国家、年份及性别等子维度进行分层组织。每个观测条目均包含点估计值及其置信区间,支持对无烟烟草使用率的精确度量。数据集的独特之处在于其多维结构:通过`dim1`和`dim2`字段记录性别、居住地类型等分层信息,使得研究者能够灵活筛选特定子群体(如全体、男性或女性)的流行率数据,从而开展更为细致的流行病学分析。
使用方法
使用者可通过HuggingFace的`datasets`库直接加载该数据集,并转换为Pandas DataFrame进行后续处理。为获得特定子群体的全国性数据,建议对`dim1`字段进行过滤,例如筛选以`_BTSX`结尾的条目以获取两性综合指标。如需进行时序分析,可按`country_iso3`字段筛选单一国家(如肯尼亚)并按年份排序。此外,该数据集支持回归与分类两类任务,点估计值`value_numeric`可作为目标变量,而置信区间可作为不确定性度量的辅助特征。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队整理发布,涵盖了2005至2021年间20个非洲国家成年人每日无烟烟草使用的流行率。核心研究问题聚焦于量化非洲地区无烟烟草使用的流行病学特征,为公共卫生政策制定提供数据支撑。作为首个统一格式的非洲健康机器学习数据集,其影响力体现在填补了区域健康数据标准化空白,推动了以数据驱动的烟草控制研究,并支持国际卫生目标的监测与评估。
当前挑战
数据集的挑战首先在于领域问题:无烟烟草使用在非洲常被低估,其健康影响研究受限于数据稀疏性,而该数据集仅覆盖20国58条记录,样本量小且分布不均,难以支撑复杂建模或区域间稳健比较。构建过程中,挑战来自多源数据整合:需从WHO OData API提取原始指标,处理置信区间缺失、性别和地区亚组分层(如SEX_BTSX),并统一异构数据格式为Parquet,同时确保时间序列的连续性与跨年可比性,避免因数据更新频繁导致版本不一致。
常用场景
经典使用场景
该数据集聚焦于非洲地区成人每日无烟烟草使用率的时空分布,涵盖2005至2021年间的20个非洲国家,共计58条观测记录。在流行病学与公共卫生领域,研究者可将其作为核心变量,结合社会经济、教育水平、政策干预等多维数据,构建回归模型或分类模型,以揭示无烟烟草使用在非洲大陆的流行特征及其驱动因素。数据集的性别分层字段(如男性、女性、两性合计)的引入,使得性别差异分析成为可能,从而为针对性干预策略的制定提供精准依据。
实际应用
在实际应用层面,该数据集可直接服务于非洲各国卫生部门的烟草流行监测与健康风险预警系统,帮助决策者识别高流行群体和地理热点。基于性别和年份的分层数据,政策制定者可精细化设计针对男性或女性的社区健康干预项目,例如在无烟烟草使用率上升的国家启动专项教育宣传活动。此外,它也为非政府组织和国际发展机构(如世界银行、盖茨基金会)评估控烟项目投资回报率提供了关键基线数据,支撑资源向最需要地区的高效配置。
衍生相关工作
该数据集作为Electric Sheep Africa统一数据仓储的核心组件之一,催生了多项跨领域衍生工作。研究者可将其与同系列的其他非洲健康指标(如HIV感染率、高血压患病率)进行多元联合分析,构建非洲大陆健康风险画像。在机器学习领域,其简洁而规范的表格结构适合作为时序预测模型的基准数据集,推动轻量级深度学习架构在资源受限环境下的流行病预测研究。此外,该数据集还激发了关于非洲本土数据治理与开放科学运动的讨论,引发了将WHO官方API重构为ML-Ready格式的一系列工具链开发工作。
以上内容由遇见数据集搜集并总结生成



