electricsheepafrica/africa-who-taxes-as-a-of-price-ad-valorem-excise
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-taxes-as-a-of-price-ad-valorem-excise
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲各国2008-2022年间WHO GHO指标Taxes as a % of price: ad valorem excise(`R_Ad_val`)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator Taxes as a % of price: ad valorem excise (`R_Ad_val`) across African nations, spanning 2008–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa项目系统化整合与再封装,形成面向机器学习应用的标准化数据集。数据聚焦于非洲地区,以“从价消费税占价格百分比”(指标代码R_Ad_val)为核心观测变量,覆盖2008年至2022年间47个非洲国家的358条记录。构建过程中,所有数值均直接取自API返回的浮点精度字段NumericValue,而非经过格式化的展示字符串,同时保留了置信区间上下限(value_low与value_high)信息,确保数据精度与统计完整性。数据集以一致的Parquet文件格式存储,并附带清晰的模式定义,便于后续分析与建模。
特点
本数据集以非洲大陆为地理聚焦,专为烟草与尼古丁产品税收政策研究而设计,具有鲜明的领域针对性。其突出特点在于维度丰富:除国家、年份及数值指标外,还根据产品类型(如最畅销卷烟、开放式电子烟液、加热烟草制品、无烟烟草)进行分层记录,并通过dim1与dim2字段支持性别、居住区域等亚组筛选。每条观测均包含置信区间,为不确定性量化提供了基础。数据集大小不足千条记录,轻量精炼,特别适合小型回归或分类任务,亦可作为时间序列分析或跨国产税比较的可靠数据源。
使用方法
数据集可通过HuggingFace的datasets库直接加载,访问方式简洁高效:使用load_dataset("electricsheepafrica/africa-who-taxes-as-a-of-price-ad-valorem-excise")即可获取训练集,并支持一键转换为Pandas DataFrame进行深入操作。典型用法包括筛选全国层面且性别为全体的观测(过滤dim1以_BTSX结尾或为空值),或按国家代码与年份排序提取特定国家的时间序列数据。用户还可依据dim1与dim2字段按需选择特定亚组,或聚合跨层信息进行整体分析。数据集以CC BY 4.0许可发布,引用时须注明WHO GHO原始来源及Electric Sheep Africa的再封装贡献。
背景与挑战
背景概述
烟草消费税作为价格的重要组成部分,是公共卫生政策中调控烟草消费、减少非传染性疾病负担的关键杠杆。世界卫生组织(WHO)全球卫生观察站(GHO)自2008年起系统收集各国烟草税负数据,其中“从价特别消费税占价格百分比”(R_Ad_val)指标用以衡量税收对烟草制品价格的直接贡献。由Electric Sheep Africa团队整理并发布于HuggingFace平台的该数据集,聚焦于47个非洲国家2008至2022年的观测值,共计358条记录,涵盖从卷烟到电子烟等多种烟草及尼古丁产品类型。该数据集为跨区域税收政策比较、公共卫生经济学建模及机器学习驱动的税收效应分析提供了标准化、结构化的高质量数据资源,有力推动了非洲地区烟草控制研究的实证化进程。
当前挑战
该数据集面临的核心挑战在于其覆盖的领域问题:烟草消费税对健康行为的因果效应难以从宏观税收数据中直接剥离,混杂因素如吸烟文化、收入水平及替代产品可获得性等可能扭曲税收与消费量的关联。同时,构建过程中遭遇多重困难,包括不同年份与国家的数据缺失导致面板非平衡,部分指标仅有点估计而未提供置信区间,以及多维度分层(如性别、居住地)带来样本稀疏性,使得统计推断与机器学习模型的稳健性受限。此外,WHO原始API接口的更新延迟与格式差异增加了数据清洗与对齐的复杂性,需通过标准化模式整合才能满足即时可用的研究需求。
常用场景
经典使用场景
在公共卫生与健康经济学交叉研究领域,该数据集常用于分析非洲各国烟草及尼古丁产品消费税负水平的时间序列与跨国差异。研究者可将其作为核心因变量,结合世界银行、国际货币基金组织等机构的宏观经济学指标,构建面板数据模型,探究税收政策与烟草消费行为、疾病负担之间的动态关联,为循证控烟政策提供数据支撑。
解决学术问题
数据集通过提供标准化、机器可读的从价消费税占价格百分比指标,有效解决了非洲地区税收政策量化数据稀缺、格式不一等长期困扰学术界的难题。它使研究者能够系统评估各国的税负强度是否达到世界卫生组织推荐的最低税率标准,并量化税收政策对烟草制品可负担性、消费模式及健康结局的影响,从而弥补了全球健康经济学研究中非洲区域证据不足的空白。
衍生相关工作
该数据集作为Electric Sheep Africa统一化非洲数据生态的一部分,衍生出一系列利用标准化机器学习流水线进行跨国政策模拟与预测的学术工作。例如,研究者基于该数据开发了税收对烟草消费弹性的预测模型,或将其与烟草业利润、走私率等指标结合,构建更完整的政策评估框架。这些工作进一步催生了面向非洲区域的健康经济学基准数据集与开源分析工具库,推动了该领域的可复现性研究。
以上内容由遇见数据集搜集并总结生成



