five

electricsheepafrica/africa-who-estimate-of-current-tobacco-smoking-prevalence-smkcurrstd

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimate-of-current-tobacco-smoking-prevalence-smkcurrstd
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标当前烟草吸烟流行率估计(%)(年龄标准化)(`M_Est_smk_curr_std`)在非洲国家的国家级观察数据,时间跨度为2000年至2030年。数据集是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间上下限(`value_low`,`value_high`)。数据集涵盖40个非洲国家,总行数为1,320行,并可按性别等子维度进行筛选或聚合。

This dataset contains country-level observations for the WHO GHO indicator Estimate of current tobacco smoking prevalence (%) (age-standardized) (`M_Est_smk_curr_std`) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 40 African nations with a total of 1,320 rows and can be filtered or aggregated by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球健康观察站(WHO GHO)的公开数据,针对非洲地区当前烟草吸烟率的年龄标准化估计值进行整合与重构。通过OData API直接采集原始指标'M_Est_smk_curr_std'的数值型观测值,摒弃了冗余的显示字符串,确保数据精度。所有记录均以Parquet格式统一存储,并纳入40个非洲国家自2000年至2030年的年度观测数据,总计1320行。数据集中还保留了置信区间上下限字段,以增强统计可靠性。此外,针对性别等子维度进行的分层观测被自动展开为独立行,便于用户按需筛选或聚合分析。
特点
该数据集的核心特质在于其面向机器学习场景的精心设计:采用统一的数据模式,包含指示符代码、国家ISO3代码、观测年份、数值型点估计及其置信区间等关键字段,且所有数值均以浮点格式直接存储,无需二次解析。数据集覆盖了WHO非洲区域全境,时间跨度长达三十年,为时间序列分析与趋势建模提供了丰富素材。同时,数据中保留了多维分层信息(如性别、居住地类型),用户可灵活提取全国层面或特定亚群的数据,兼顾了分析深度与使用便捷性。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,一句代码即可将数据转化为Pandas DataFrame进行后续操作。针对常见分析需求,示例提供了按性别过滤出全国层面(两性合计)数据的筛选逻辑,以及按国家与年份排序获取时间序列的典型用法。数据集兼容分类与回归两类任务,既适用于预测建模,也可用于探索性统计推断。建议用户根据研究目标对'dim1'与'dim2'字段进行分层操作,以挖掘不同亚组间的差异模式,或通过聚合函数整合跨年度的区域健康趋势。
背景与挑战
背景概述
烟草使用是导致非传染性疾病(如心血管疾病、癌症和慢性呼吸系统疾病)的主要可预防风险因素之一,在非洲地区,随着烟草消费模式的转变和人口增长,烟草流行态势日益严峻。为应对这一公共卫生挑战,世界卫生组织(WHO)通过全球卫生观察(GHO)项目系统监测各国烟草使用情况,该数据集即源自WHO GHO,由Electric Sheep Africa在HuggingFace上统一整合并发布,涵盖2000年至2030年间40个非洲国家的年龄标准化当前烟草吸烟流行率(%)指标。其核心研究问题在于揭示非洲地区烟草使用的时间演变趋势和地域差异,为政策制定者提供数据支撑,以评估控烟措施的成效并推动全球烟草控制框架公约的实施。该数据集以其标准化、机器学习友好的格式,显著提升了非洲健康数据的可及性和分析效率,对促进非传染性疾病预防研究及卫生政策科学决策具有重要价值。
当前挑战
该数据集所解决的领域问题主要包括:如何在数据零散、质量参差不齐的非洲公共卫生体系中,实现对烟草流行趋势的精准量化与跨国比较,从而克服传统调查报告在时间连续性、方法一致性及地域代表性上的局限。在构建过程中,面临的挑战涵盖:1)从WHO GHO的OData API中提取大规模数据时,需处理不同年份、国家和亚组(如性别、城乡)的异构字段,确保数据模式的统一与字段类型的精确转换(如将显示字符串解析为数值型置信区间);2)清洗和整合含分层维度(如dim1、dim2)的复杂表格,避免因缺失值或重复条目导致的分析偏差;3)对齐2000—2030年预测区间内的数据时效性,确保历史观测与未来估计值之间的平滑衔接,以支持时间序列建模和长期趋势预测任务。
常用场景
经典使用场景
该数据集汇集了世界卫生组织全球卫生观察站提供的非洲国家年龄标准化当前烟草吸烟流行率估算值,覆盖2000年至2030年的时间跨度,包含40个非洲国家的观测数据。研究者常将其用于追踪非洲地区烟草使用趋势的时空演变,通过按性别、城乡等维度进行分层分析,揭示不同亚群中吸烟行为的分布特征。该数据集为机器学习驱动的分类与回归任务提供了标准化、清洁的表格数据,特别适合构建预测模型以估计未来吸烟率的变化轨迹。
衍生相关工作
该数据集衍生了一系列具有影响力的学术工作,包括基于时序预测模型的中非吸烟率预警研究,以及整合多维社会经济指标解析烟草流行决定因素的因果推断分析。部分工作聚焦于数据缺失值填补算法的优化,通过生成对抗网络或贝叶斯分层模型提升估算精度。此外,该数据集还催生了跨国控烟政策效能评估的元分析研究,并成为联合国可持续发展目标3监测框架中烟草相关指标的基准数据源。
数据集最近研究
最新研究方向
在公共卫生与流行病学领域,该数据集聚焦于非洲地区年龄标准化后的当前烟草吸烟流行率,为追踪全球控烟框架下非洲大陆的烟草使用趋势提供了关键量化基础。前沿研究方向主要集中于通过时间序列模型(如ARIMA或贝叶斯结构时间序列)预测2020-2030年间的吸烟率演变,并利用性别、城乡等子维度分层分析,揭示社会经济不平等与吸烟行为的深层关联。结合WHO《烟草控制框架公约》在非洲的实施进展,该数据为评估政策干预效果(如提高烟草税、图形警示包装)提供了实证依据,尤其对填补撒哈拉以南非洲长期缺失的高质量健康统计具有里程碑意义,助力精准公共卫生决策与可持续发展目标中非传染性疾病防控的监测。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务