five

electricsheepafrica/africa-who-tobacco-raise-taxes-affordability

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tobacco-raise-taxes-affordability
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家关于WHO GHO指标Tobacco Raise taxes: Affordability的国家级观测数据,时间跨度为2014年至2024年。数据集来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。数据包括数值估计值、置信区间边界等。此外,数据集还涵盖了47个非洲国家,总行数为311行,并提供了详细的列描述和使用示例。

This dataset contains country-level observations for the WHO GHO indicator Tobacco Raise taxes: Affordability (`TOBACCO_MPOWER_R_AFFORDABILITY`) across African nations, spanning 2014–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的官方OData接口,聚焦非洲区域烟草可负担性指标(TOBACCO_MPOWER_R_AFFORDABILITY)。数据以Parquet格式重新封装,整合了47个非洲国家在2014至2024年间的年度观测记录,总计311行。所有数值均采用浮点精度的NumericValue字段,而非展示字符串,同时保留了可用的置信区间上下限,确保了数值的精确性与统计完整性。维度方面,指标细分为国内生产总值(GDP)相关可负担性与增长率趋势两个子维度,并通过dim1/dim2字段支持按性别、居住地区等分层筛选,便于进行多维度的深入剖析。
特点
该数据集最显著的特点在于其高度一致的模式设计与机器学习友好性。作为Electric Sheep Africa系列的一部分,它遵循统一的列结构,包含国家代码、年份、数值、置信区间及分层维度等字段,极大简化了跨数据集的整合与复用。数据覆盖了非洲地区绝大多数国家,时间跨度长达十年,为分析烟草控制政策的长期效果提供了丰富的时序基础。此外,数据集明确标识每次更新的时间戳,保证了数据的可追溯性与时效性,适用于回归分析、分类任务及时间序列建模等多种应用场景。
使用方法
借助HuggingFace的datasets库,用户可通过一条简洁的Python命令直接加载数据集,并将其转换为Pandas DataFrame进行后续操作。使用时可依据dim1字段过滤出全国总体水平(如SEX_BTSX或空值),或通过country_iso3列提取特定国家的时间序列数据。对于需要跨年份或跨国家比较的研究,直接利用value_numeric作为主要预测目标,并结合value_low与value_high开展不确定性量化分析。该数据集也支持按年份排序后构建监督学习模型,应用于预测烟草可负担性的演变趋势。
背景与挑战
背景概述
烟草消费是全球公共卫生领域面临的重大挑战之一,尤其在撒哈拉以南非洲地区,烟草使用率的上升与慢性非传染性疾病负担的加剧密切相关。为应对这一趋势,世界卫生组织(WHO)于2014年启动了MPOWER系列政策监测指标,其中“提高烟草税以增强可负担性”指标(TOBACCO_MPOWER_R_AFFORDABILITY)旨在量化各国烟草制品价格相对于居民收入的变动趋势。该数据集由Electric Sheep Africa团队整合自WHO全球卫生观察站(GHO)的官方OData接口,覆盖2014至2024年间47个非洲国家的311条观测记录,内含基于GDP和增长率的双重可负担性子维度。作为首个统一格式的、面向机器学习的非洲烟草税收政策数据集,它为研究者提供了稳定的基线数据,支撑起跨年代、跨国别的烟草税制效能评估,对非洲区域控烟政策的循证优化具有奠基性影响。
当前挑战
该数据集所解决的核心领域问题在于,非洲各国普遍面临烟草税收政策评估数据分散、口径不一、更新滞后的困境,使得跨国比较与政策归因难以有效开展。在构建过程中,挑战之一源于WHO原始数据的分层结构——当指标按性别、居住区域等维度细分时,同一国家同年份会出现多条记录,需通过维1(dim1)与维2(dim2)字段进行过滤与聚合,增加了数据清洗的复杂性。此外,置信区间字段(value_low、value_high)的缺失值频现,揭示了原始数据在精度统一与完整性保障上的局限性,要求使用者谨慎处理缺失信息。最后,数据集虽提供NumericValue作为机器学习目标,但显示字符串(value_display)中蕴含的格式化信息(如“58.3 [57.7–59.0]”)未被解析为标准字段,限制了后续误差敏感型模型的直接应用。
常用场景
经典使用场景
该数据集聚焦于非洲地区烟草可负担性这一关键公共卫生指标,涵盖2014至2024年间47个非洲国家的面板数据。经典的使用场景包括构建时间序列预测模型,以分析各国烟草制品价格相对于人均GDP的动态变化趋势;同时,它也是进行跨国家面板回归的理想数据源,适用于评估税收政策对烟草消费行为的影响。研究者常利用该数据集中的置信区间字段进行不确定性量化,或将其作为多维度分层分析的输入,探究性别、城乡等不同亚群之间的可负担性差异。
实际应用
在实际应用层面,该数据集为非洲各国卫生部门及国际公共卫生机构提供了制定差异化控烟税收策略的数据支撑。通过分析不同国家的可负担性变化,决策者能够识别出烟草尚未因税赋增加而显著降低可及性的地区,从而精准调整税率以遏制烟草流行。数据集还可用于构建财政收益与健康效益的权衡模型,辅助政府在设计烟草税制时兼顾财政收入与全民健康的目标,在公共卫生政策与经济发展之间寻求平衡。
衍生相关工作
该数据集的衍生工作主要集中在公共卫生监测系统的智能化升级与交叉数据融合方向。研究者可以将其与非洲其他健康指标数据集(如吸烟患病率、烟草税收入数据)进行联合分析,构建综合性烟草控制效果评估框架。此外,基于该数据集的时间序列特性,学界已衍生出关于非洲地区烟草可负担性区域性聚类分析、动态随机森林预测模型以及税收政策模拟器的相关工作,进一步拓展了其在计量经济学与健康行为科学领域的研究纵深。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务