electricsheepafrica/africa-who-tobacco-raise-taxes-retail-price-for-tobacco-and-nicotine
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tobacco-raise-taxes-retail-price-for-tobacco-and-nicotine
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2008年至2024年间关于WHO GHO指标提高烟草税:烟草和尼古丁产品的零售价格的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,包括置信区间边界(value_low,value_high)。该数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Tobacco Raise taxes: Retail price for tobacco and nicotine products (`TOBACCO_MPOWER_R_PRICE`) across African nations, spanning 2008–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球健康观察站(WHO GHO)的OData API,聚焦于非洲国家烟草与尼古丁产品零售价格指标(TOBACCO_MPOWER_R_PRICE)。数据经过系统化整合与重封装,以Parquet格式呈现,采用统一的数据模式。所有数值均取自浮点精度的`NumericValue`字段,而非显示字符串,确保机器学习任务的直接可用性。数据集覆盖2008至2024年间47个非洲国家的1707条观测记录,并包含置信区间上下界(`value_low`、`value_high`)等辅助字段,支持更精细的统计分析。
特点
该数据集的核心特点在于其结构化与多维性。除基本的时间序列与国别信息外,数据内嵌了烟草指标的子维度分类,如以本地货币、购买力平价(PPP)或美元计价的零售价格。当指标按性别、居住地类型等进行分层时,每个国家-年份-维度的唯一组合均生成独立行记录,通过`dim1`和`dim2`字段进行标识。这种设计使得研究者能够灵活筛选特定亚群(如两性全国平均水平),或跨层聚合,以支持多层次流行病学与政策评估分析。数据规模适中(1K<n<10K),便于快速集成至典型机器学习管道。
使用方法
本数据集可通过Hugging Face的`datasets`库便捷加载,调用`load_dataset`函数即可直接获取训练集并转换为Pandas DataFrame进行后续操作。针对常见分析目标,推荐优先过滤`dim1`字段以获取两性(`_BTSX`后缀)或全国层面的无分层数据,简化模型输入特征。对于国别时间序列研究,可按`country_iso3`代码筛选特定国家(如`KEN`代表肯尼亚),并依`year`列排序进行趋势分析。此外,置信区间字段为不确定性量化提供了原生支持,适用于回归任务中预测区间的建模或稳健性检验。
背景与挑战
背景概述
烟草与尼古丁产品的零售价格是评估烟草税政策有效性的核心经济指标,尤其对非洲大陆而言,价格弹性直接影响控烟目标的达成。该数据集由世界卫生组织(WHO)于2008年至2024年间通过全球卫生观察站(GHO)系统收集,覆盖47个非洲国家,共1707条观测记录,经Electric Sheep Africa团队重新整理后以Parquet格式发布,旨在为机器学习驱动的非洲健康政策研究提供标准化、可复用的数据基础。作为WHO MPOWER系列指标的一部分,该数据集聚焦于价格维度,通过三种计量方式(本地货币、购买力平价及美元)量化烟草零售价,并包含置信区间与人口分层信息,为分析师探究税收上调对消费行为的影响提供了细粒度时空证据。其发布填补了非洲地区高质量烟草经济数据的空白,有力支撑了区域公共卫生建模、税收政策模拟及跨国比较研究,对推动非洲控烟议程具有深远影响。
当前挑战
该数据集所解决的领域核心挑战在于非洲各国烟草税收政策评估中缺乏统一、透明且机器学习友好的价格数据,传统来源多分散于各国统计报告且格式各异,难以进行跨国家、跨时间序列的整合分析。构建过程中,团队面临多重技术性难题:首先,WHO OData API返回的数据包含多种货币计价方式(本地货币、PPP、美元)及不同置信区间格式,需设计一致性清洗规则确保`NumericValue`字段的精度与可比性;其次,47个国家的年份覆盖率不均(2008-2024年间存在大量缺失值),且部分观测包含性别与城乡分层(如`SEX_BTSX`、`RURAL`),如何在保留分层信息的同时避免维度爆炸是为机器学习模型提供标准化特征矩阵的关键;此外,原始数据中`value_display`字段包含字符串化区间(如“58.3 [57.7–59.0]”),需解析后与`value_low`、`value_high`对齐,过程中需应对WHO数据版本迭代导致的字段命名与类型变更,确保各年度数据发布的跨期一致性。
常用场景
经典使用场景
该数据集聚焦于非洲国家烟草与尼古丁产品的零售价格监测,涵盖47个国家自2008年至2024年的面板数据。研究者可基于此构建时间序列分析模型,揭示烟草价格在非洲大陆的时空演变规律。经典用途包括利用回归分析探究价格波动与宏观经济指标(如购买力平价、汇率)之间的关联,或通过分类任务识别各国烟草定价政策的阶段性特征。其结构化设计支持多维度分层分析(如按性别、城乡划分),为公共卫生领域的计量经济学研究提供了坚实的数据基础。
衍生相关工作
围绕该数据集已衍生出多项标志性工作。在数据工程层面,Electric Sheep Africa项目将其纳入统一架构的非洲健康数据仓库,推动了Parquet格式的标准化适配。方法学上,研究者基于其面板结构开发了针对非洲特殊情境的缺失值插补算法和跨国产出缺口修正模型。应用端,有团队利用该数据训练价格预测的时序神经网络,并与WHO《全球烟草流行报告》中的政策强度指标进行因果推断。更前沿的工作尝试将其与卫星夜间灯光数据、移动支付渗透率等社会经济代理变量融合,构建烟草消费行为的综合预测框架。
数据集最近研究
最新研究方向
该数据集聚焦于非洲大陆烟草与尼古丁产品零售价格的多维度监测,源于世界卫生组织全球健康观察站(WHO GHO)的官方指标,涵盖2008至2024年间47个非洲国家的时序观测数据。在当前全球控烟政策持续收紧、非洲地区烟草消费与健康负担并存的背景下,该数据集为研究税收杠杆对烟草可及性的调控效果、价格弹性与消费行为的关联机制提供了关键实证基础。其价值不仅体现在以标准化Parquet格式整合的机器学习就绪数据上,更通过包含购买力平价(PPP)与美元计价等多层次价格子指标,为评估各国烟草税政策的经济公平性、探索跨区域价格差异对公共卫生干预的启示,奠定了高质量的数据基石,有力推动了数据驱动的非洲控烟策略优化研究。
以上内容由遇见数据集搜集并总结生成



