electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-value
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-value
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2008年至2020年间,世界卫生组织全球健康观察站(WHO GHO)指标最畅销香烟品牌 - 税收占价格的百分比 - 增值税(R_VAT_estimate)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段,而非显示字符串。此外,还包含了可用的置信区间边界(value_low, value_high)。数据集覆盖了47个非洲国家,总共有310行数据。
This dataset contains country-level observations for the WHO GHO indicator "Most sold brand of cigarettes - taxes as a % of price - value added tax" (R_VAT_estimate) across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在非洲公共卫生与烟草控制政策评估的背景下,该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API接口,聚焦于‘最畅销香烟品牌价格中增值税占比’这一关键指标(指标代码:R_VAT_estimate)。数据涵盖2008至2020年间47个非洲国家的年度观测值,共计310条记录。构建过程中,所有数值均采用浮点精度的NumericValue字段,而非格式化显示字符串,同时保留了可用的置信区间上下界。数据被统一打包为Parquet格式文件,并辅以一致的列模式,便于机器学习场景下的直接调用。
特点
该数据集的核心特色在于其高度专注的维度——仅包含每个国家每年单一的值,无额外分层子维度,简化了分析复杂度。指标值直接反映烟草税负水平,为研究税收政策对烟草消费的影响提供了精确量化依据。数据覆盖非洲大陆大多数国家,时间跨度为十三年,支持跨国家与跨年份的纵向分析。同时,数据集保留了置信区间信息,使得不确定性评估成为可能,增强了统计推断的可靠性。整体上,该数据集兼具权威来源、统一架构与机器学习的即用性。
使用方法
在使用方面,该数据集通过HuggingFace Datasets库便捷加载,仅需一行代码即可将数据转化为Pandas DataFrame进行后续处理。针对全人群分析需求,可从dim1字段中筛选出以‘_BTSX’结尾或为空的记录,从而获得全国水平的两性汇总数据。对于特定国家的时序研究,可对国家代码列进行过滤,如筛选‘KEN’后按年份排序,即可生成该国的时间序列。此外,由于数据集无子维度,用户可直接将value_numeric列作为回归或分类任务的目标变量,用于预测模型或政策效果评估。
背景与挑战
背景概述
在全球公共卫生治理与烟草控制议题中,税收政策被视为减少烟草消费、增进公共健康的核心杠杆之一。世界卫生组织(WHO)长期致力于监测各国烟草税收实施状况,其全球健康观察站(GHO)积累了丰富的数据资源。在此背景下,由Electric Sheep Africa团队于2023年前后整理发布的非洲地区最畅销香烟品牌增值税占比数据集,聚焦于47个非洲国家在2008至2020年间增值税占香烟价格比例这一关键指标。该数据集以标准化Parquet格式呈现,包含310条观测记录,为机器学习驱动的区域烟草政策分析提供了统一、可复用的结构化数据基础,填补了非洲大陆在该领域公开数据集的空白,对健康经济学、流行病学及政策评估研究具有重要推动作用。
当前挑战
该数据集所应对的核心领域挑战在于,尽管烟草消费税是公认的成本效益最高的控烟措施之一,但非洲国家普遍面临税收数据不透明、口径不一、更新滞后等问题,导致跨国政策比较与因果推断困难。在构建过程中,团队面临多重技术障碍:原始WHO OData接口返回的数据包含字符串与数值的混合表述,需精确提取浮点精度数值而非显示字符串;不同国家与年份之间存在大量缺失置信区间(value_low/value_high)的记录,需谨慎处理空缺值;此外,数据集仅涵盖单一税种(增值税)且无亚维度分层,限制了多维分析能力,而后续研究者需额外整合价格、销量及消费税数据方能全面评估税收对烟草消费的真实影响。
常用场景
经典使用场景
在公共卫生与烟草控制政策研究领域,该数据集被广泛用于分析非洲各国对最畅销卷烟品牌征收的增值税占价格比例的变化趋势。研究者可通过时间序列分析,揭示2008至2020年间47个非洲国家在烟草税收政策上的异质性,为评估区域烟草税负水平及政策有效性提供数据支撑。
实际应用
实际应用中,该数据集可辅助世界卫生组织及各国卫生部门监测税收政策执行效果,为优化烟草消费税制设计提供依据。同时,它能够支持非政府组织构建可视化仪表板,向政策制定者直观展示税负变化对民众健康行为的潜在影响,进而推动区域间控烟协调与税收合规性提升。
衍生相关工作
该数据集衍生出多项经典工作,包括基于机器学习模型预测税收政策对卷烟消费的长期影响、构建跨国面板数据以识别增值税变化与吸烟率之间的因果关系,以及利用时间序列分解技术分离季节性波动与政策冲击效应。这些研究不仅丰富了烟草经济学的实证方法论,也为全球控烟框架在非洲的本土化实施提供了可复用的分析范式。
以上内容由遇见数据集搜集并总结生成



