electricsheepafrica/africa-who-estimate-of-current-tobacco-use-prevalence-tobcurrstd
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimate-of-current-tobacco-use-prevalence-tobcurrstd
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“当前烟草使用流行率估计(年龄标准化)(%)”(`M_Est_tob_curr_std`)在非洲国家的国家级观察数据,时间跨度为2000年至2030年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察站OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Estimate of current tobacco use prevalence (%) (age-standardized)" (`M_Est_tob_curr_std`) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经过系统化整合与重新封装而成。数据以Parquet格式存储,采用统一的模式结构,原始值取自精确浮点字段NumericValue,而非显示字符串。数据集涵盖了2000年至2030年间40个非洲国家的时序观测,共计1320条记录。在构建过程中,保留了性别的亚组划分(如男女合计、男性、女性),以及置信区间上下限,确保数据粒度精细且支持多层次分析。
特点
该数据集的核心特点在于其专为机器学习任务优化,具备一致的列类型与缺失值处理策略。字段设计清晰,包含指标代码、国家ISO编码、年份、数值点估计及置信区间等关键变量。亚组分析维度通过dim1/dim2字段灵活呈现,便于用户按性别或居住地类型等分层筛选。此外,数据来源权威、许可开放(CC BY 4.0),为非洲地区烟草使用流行率的建模与趋势预测提供了可靠、标准化的基础。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,使用load_dataset函数即可获取训练集。加载后,建议将数据转换为Pandas DataFrame以便进行高效操作。若需分析全国层面的两性数据,可基于dim1字段的‘_BTSX’后缀进行筛选。对于特定国家的时序分析,则可通过country_iso3字段过滤,并按年份排序。数据集兼容分类与回归任务,支持直接作为预测模型的输入特征使用。
背景与挑战
背景概述
烟草使用是全球可预防的主要健康威胁之一,尤其在非洲地区,快速城市化与人口增长正加剧烟草流行态势。世界卫生组织(WHO)全球卫生观察站(GHO)长期监测各国烟草使用趋势,其核心指标“当前烟草使用率(年龄标准化)”为评估控烟政策效果及预测疾病负担提供了关键依据。该数据集由Electric Sheep Africa团队于2030年前后整理发布,涵盖2000年至2030年间40个非洲国家的1,320条观测记录,包含按性别分层的精细数据。作为首个面向机器学习且格式统一的非洲健康开放数据集,它填补了该区域在烟草流行研究领域的数据空白,为政策制定者、流行病学家及人工智能研究者提供了跨时空、可复用的标准化数据基础,有力推动了对非洲控烟进展的系统性量化分析。
当前挑战
该数据集面临的核心挑战在于解决非洲地区烟草使用率估计的领域难题:许多国家缺乏连续可靠的烟草调查数据,导致模型需在稀疏样本与高不确定性的置信区间之间寻求平衡;此外,不同国家在调查方法、年龄分层标准及数据报告时间上的差异,增加了跨时空比较与归纳的复杂性。在构建过程中,团队需协调WHO GHO原始API中多来源数据的异构格式,重新映射变量类型与编码系统(如性别维度、区域分类),同时保持对非结构化文本字段的清晰语义化转换;更为棘手的是,部分国家在特定年份的数据完全缺失,且置信区间信息不完整,如何在不引入偏倚的前提下设计有效的空缺值处理策略与亚组聚合逻辑,成为确保数据集机器学习就绪状态的关键技术瓶颈。
常用场景
经典使用场景
该数据集以非洲国家为地理边界,聚焦世界卫生组织全球卫生观察站(WHO GHO)中“当前烟草使用率(年龄标化)”这一核心指标,提供了2000年至2030年间40个非洲国家的纵向观测数据。经典使用场景包括构建时间序列回归模型,预测烟草使用率的变化趋势,或利用性别、城乡等亚维度信息进行分层分析,评估不同人群的烟草暴露风险。数据以Parquet格式标准化存储,兼容HuggingFace Datasets库,便于直接加载至机器学习流水线,支持分类与回归任务的双重调用。
实际应用
在实际应用中,该数据可服务于非洲各国卫生部门的烟草流行监测系统,帮助政府动态追踪控烟目标的完成进度。非政府组织可借助性别和城乡分层数据,精准定位高危人群并设计差异化干预策略,例如针对农村男性开展戒烟宣传。国际机构如WHO和世界银行可将其整合进全球疾病负担评估模型,优化公共卫生资源配置。此外,数据的时间跨度和置信区间信息还可用于医疗资源规划中的情景模拟与风险预警。
衍生相关工作
该数据集衍生了一系列重要的学术工作,包括基于多国面板数据的烟草使用驱动力分析,探究经济水平、教育程度与控烟政策对吸烟率的交互影响。部分研究进一步将其与WHO其他指标(如非传染性疾病死亡率、卫生支出)关联,构建非洲健康风险的多任务预测框架。此外,Electric Sheep Africa项目基于此数据推动了面向非洲区域的标准化机器学习基准数据集建设,催生了如“非洲健康指标时间序列预测挑战赛”等社区竞赛,显著提升了非洲数据在AI for Global Health领域的可见度。
以上内容由遇见数据集搜集并总结生成



