five

electricsheepafrica/africa-who-number-of-current-of-tobacco-users

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-current-of-tobacco-users
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2030年间世界卫生组织全球健康观察指标当前烟草使用人数估计(M_Est_tob_curr_users)的国家级观测数据。它是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of current of tobacco users, estimate (M_Est_tob_curr_users) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球健康观察站(WHO GHO)的OData API,经由Electric Sheep Africa项目统一整理为机器学习就绪的Parquet格式。数据集聚焦于非洲地区,依据WHO AFRO区域代码筛选出40个非洲国家,时间跨度覆盖2000年至2030年,共包含1320条观测记录。每条记录以国家、年份及可能的性别等子维度为组合,从API的NumericValue字段提取浮点数精度指标值,并附带可信区间上下界,确保数据的精确性和统计完整性。
特点
数据集的核心特点在于其结构化与多维度分层设计。指标`M_Est_tob_curr_users`反映了烟草使用人数估计值,通过SEX等子维度(如两性、女性、男性)进行分层,每个国家-年份-维度的唯一组合生成独立行,便于精细化分析。数据模式一致,包含indicator_code、country_iso3、year、value_numeric等关键列,同时提供value_low和value_high置信区间,增强了统计可靠性。此外,数据覆盖长达31年的纵向观测,为时间序列研究与政策评估提供了坚实基础。
使用方法
使用者可通过HuggingFace的datasets库轻松加载数据,调用`load_dataset`函数获取训练集并转换为Pandas DataFrame进行后续操作。建议首先过滤子维度:例如,通过筛选dim1列以`_BTSX`结尾或为空的行,获取两性全国层面的数据。针对特定国家的分析,可依据country_iso3列(如'KEN'代表肯尼亚)筛选并按年份排序,以生成时间序列。数据兼容分类与回归任务,可直接作为机器学习模型的输入,或用于描述性统计与可视化分析。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据,聚焦于非洲地区当前烟草使用者数量的估算指标(M_Est_tob_curr_users)。烟草使用是导致非传染性疾病(如心血管疾病、癌症和呼吸系统疾病)的主要风险因素之一,在非洲地区,随着人口增长和烟草行业营销策略的变化,烟草流行形势日益严峻。该数据集覆盖2000年至2030年间的40个非洲国家,包含性别等分层维度,为研究非洲烟草使用的时空分布、趋势预测及公共卫生干预效果评估提供了标准化的高质量数据基础。其对机器学习驱动的健康政策分析、流行病学建模以及可持续发展目标监测具有重要推动作用。
当前挑战
该数据集所解决的领域问题在于,尽管烟草使用是全球公共卫生领域的重大威胁,非洲地区长期面临数据稀疏、指标不统一和更新滞后等障碍,难以支撑精准的区域性政策制定。具体挑战包括:1)数据来源依赖WHO GHO的估算模型,不同国家间的数据质量与采集频率差异显著,可能导致置信区间较宽或缺失;2)数据集包含性别、居住地类型等多重分层维度,在构建机器学习模型时需谨慎处理高维稀疏特征与缺失值;3)时间跨度长达30年(含未来预测年份),模型的时序外推能力面临地域性社会经济变迁与控烟政策干预的非平稳性考验;4)非洲内部区域差异巨大,例如城乡烟草使用模式的异质性,要求模型具备良好的泛化能力与迁移性。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织全球卫生观察站关于非洲地区当前烟草使用人数的估算数据,覆盖2000至2030年,涉及40个非洲国家,并细分为性别维度。在公共卫生与流行病学领域,它常被用于构建时间序列预测模型,以追踪烟草流行趋势的动态演变;也可作为回归任务的基础,探索社会经济、政策干预等因素与烟草使用规模之间的关联。此外,其结构化的分层设计(如按性别划分)使其能够支持亚组分析,从而揭示不同人群的烟草使用模式差异。
解决学术问题
在学术研究中,该数据集有效解决了非洲地区烟草使用长期监测数据稀缺与碎片化的问题。通过提供跨国家、跨年度的一致估算值,它助力学者揭示烟草流行的区域异质性及时间演化规律,推动了对烟草控制政策效果评估的量化研究。同时,其包含置信区间估计的特征,使得不确定性分析成为可能,为流行病学建模提供了更可靠的基准。这一数据资源为非洲大陆实现世界卫生组织提出的烟草控制目标贡献了关键的数据基础。
衍生相关工作
基于该数据集,已衍生出多项经典研究工作。例如,学者利用其构建了非洲烟草使用负担的时空贝叶斯模型,以揭示未观测区域的潜在模式;另有工作将其与GDP、教育水平等宏观指标结合,运用机器学习方法识别烟草使用的主要社会决定因素。在工具层面,Electric Sheep Africa项目据此开发了统一的机器学习就绪数据集,降低了数据清洗与整合的门槛。这些衍生工作共同深化了对非洲烟草流行特征的理解,并为类似公共卫生数据集的构建树立了范式。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务