electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-ad
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-ad
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标最畅销香烟品牌 - 税收占价格百分比 - 从价消费税(R_Ad_val_estimate)在非洲国家2008年至2020年间的国家级观测数据。数据集是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Most sold brand of cigarettes - taxes as a % of price - ad valorem excise (R_Ad_val_estimate) across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区最畅销香烟品牌中从价消费税占价格百分比的指标(`R_Ad_val_estimate`)。数据通过系统化的API抽取与清洗流程整合为Parquet格式文件,并统一了列式存储方案。所有数值均直接采用浮点精度的`NumericValue`字段,而非显示字符串,同时保留了置信区间上下限(`value_low`、`value_high`)。数据集覆盖2008至2020年间47个非洲国家的310条观测记录,由Electric Sheep Africa项目重新打包,旨在为机器学习任务提供标准化、可直接利用的非洲健康数据资源。
特点
该数据集具备显著的结构化与实用特性:每一条记录对应一个国家与年份的唯一组合,无额外子维度分层,确保了时间序列分析的简洁性。字段设计严谨,包含国家ISO代码、WHO区域标识、观测年份、核心数值及置信区间范围,并附有格式化显示字符串与元数据更新时间戳。针对非洲区域(WHO AFRO)的精确筛选,使得数据在地理聚焦上高度一致。整体规模精炼(约300余行),适合作为小型回归或分类任务的基准数据集,尤其适用于烟草税政策与公共卫生经济学建模。
使用方法
数据集可通过HuggingFace的`datasets`库直接加载,调用`load_dataset`函数即可获得Pandas格式的训练数据。使用时可依据`dim1`字段过滤出“男女合计”(`_BTSX`后缀)或缺失的全国层面观测值,以进行非分层的国家间比较。针对单一国家的时间序列分析,可按`country_iso3`筛选并依`year`排序。数据集默认支持表格分类与回归任务,且由于包含置信区间边界,还可用于不确定性量化或贝叶斯建模场景,展现了高度的灵活性与科研适配性。
背景与挑战
背景概述
烟草消费税作为控制烟草消费、减少相关健康危害的关键政策工具,其有效性在公共卫生领域备受关注。世界卫生组织(WHO)全球健康观察站(GHO)于2008年至2020年间,系统收集了47个非洲国家最畅销卷烟品牌的价格构成中从价税(ad valorem excise)占比数据。该数据集由Electric Sheep Africa团队从WHO GHO OData API中提取、清洗并以机器学习的标准化格式重新打包,旨在为非洲区域的烟草税政策评估与建模提供可靠的数据基础。通过提供每一年度每个国家卷烟税负的比例估计及置信区间,该数据集填补了非洲大陆在烟草经济与健康政策交叉研究中的量化数据空白,对理解税收杠杆在遏制吸烟率方面的实际效力具有重要推动价值。
当前挑战
该数据集面临的核心挑战在于,非洲各国烟草税政策执行不统一且数据采集质量参差不齐,导致跨年份、跨国别的税负比较存在偏倚。构建过程中,原始WHO数据存在缺失值、置信区间不完整以及不同时期统计口径调整等问题,需依赖严格的数据清洗与一致性处理。此外,数据集仅覆盖2008至2020年,缺乏更新近年的观测值,难以捕捉近年政策变动的影响。由于税负结构受非法贸易、汇率波动及通货膨胀等多重因素干扰,单纯依赖从价税占比作为评估指标,可能无法全面反映实际控烟效果,对建模预测的稳健性构成显著挑战。
常用场景
经典使用场景
在公共卫生与烟草控制的经济学研究中,该数据集被广泛应用于分析非洲各国烟草税负对该地区最畅销卷烟品牌价格的影响。研究者通常将其作为关键指标,结合世界卫生组织全球健康观察站的其他烟草控制数据,构建面板数据模型,用以评估不同国家在烟草税收政策上的执行力度与有效性。该数据集提供的从价消费税占比(AD VALOREM EXCISE)数据,为量化税收政策对烟草价格的影响提供了精确的数值基础,是研究非洲烟草税制设计及其健康经济效应的经典数据资源。
实际应用
在实际应用层面,该数据集为非洲各国卫生部门和国际组织(如世界卫生组织、世界银行)的烟草控制政策评估提供了核心数据依据。政策制定者可以基于该数据集中不同年份、不同国家的从价税占比变化,动态监测烟草税改政策的实施效果,精准调整税收结构以实现控烟目标。同时,该数据也被用于构建烟草税收模拟模型,帮助预测税收提升对烟草价格及消费量的潜在影响,进而优化财政预算与公共健康资源分配,推动非洲地区形成更有效的烟草税负管理体系。
衍生相关工作
该数据集的衍生工作主要体现在促进了非洲烟草税收与健康交叉领域的量化研究生态构建。一方面,它被整合进“Electric Sheep Africa”系列数据集,与其他非洲健康经济指标(如烟草消费率、疾病负担数据)形成联合分析的基础,催生了多篇探讨税收政策与吸烟率之间因果关系的实证论文。另一方面,基于该数据的高质量、标准化的时间序列特性,研究者开发了专门用于烟草税政策评估的机器学习预测模型,以及用于可视化非洲控烟进程的交互式数据仪表板,这些衍生工作进一步拓展了数据在政策科学和公共卫生情报领域的应用边界。
以上内容由遇见数据集搜集并总结生成



