electricsheepafrica/africa-who-taxes-as-a-of-price-value-added-tax
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-taxes-as-a-of-price-value-added-tax
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2008年至2022年间关于增值税占价格百分比的WHO GHO指标数据(指标代码:R_VAT)。数据来源于WHO Global Health Observatory,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集涵盖了47个非洲国家,共358行数据,并包含多个子维度,如烟草尼古丁产品等。
This dataset contains country-level observations for the WHO GHO indicator Taxes as a % of price: value added tax (R_VAT) across African nations, spanning 2008–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa项目重新整理并封装为Parquet格式文件,形成统一、可复用的机器学习数据集。数据集聚焦于非洲地区,收录了47个非洲国家自2008年至2022年间关于“增值税占价格百分比”(R_VAT)指标的年度观测数据。所有数值均源自浮点精度的NumericValue字段,并包含可用的置信区间上下限(value_low、value_high),同时保留了格式化显示字符串。数据集合计358条记录,结构清晰,每一行对应国家、年份及可能存在的亚维度组合(如性别或地域类型),便于按需筛选与聚合。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,一行代码即可将其转换为Pandas DataFrame进行后续操作。典型用法包括:过滤出“性别均含”(Both-sexes)且居住地类型为全国层面的子集,以获取国家整体情况;或按国家ISO3代码筛选特定国家的时间序列数据,如提取肯尼亚历年增值税占比并排序。数据集支持基于dim1/dim2字段的维度筛选,允许用户灵活选择关注的亚组(如仅限男性或城市区域)。对于回归或分类任务,可将value_numeric作为目标变量,辅以国家、年份及维度特征构建预测模型。
背景与挑战
背景概述
非洲地区在公共卫生政策制定中,税收政策作为调控烟草等健康风险产品消费的关键工具,其数据透明度与可比性至关重要。世界卫生组织全球健康观察站(WHO GHO)长期追踪各国增值税占价格的比例指标(R_VAT),但原始数据分散于不同格式与接口中,难以直接用于机器学习分析。为此,Electric Sheep Africa团队于2022年整合了2008至2022年间47个非洲国家的该指标数据,创建了标准化的Parquet格式数据集,旨在为健康经济学建模与政策评估提供可靠基础。该数据集覆盖了香烟、电子烟等多种烟草制品类别,并纳入了置信区间与维度分层信息,显著降低了跨国家与跨时期比较的门槛,对非洲烟草税政策的效果量化研究具有重要推动作用。
当前挑战
该数据集所解决的领域核心挑战在于,非洲各国增值税数据长期存在定义不统一、缺失率高及时间序列碎片化的问题,限制了利用税收工具抑制烟草消费的政策模拟研究。构建过程中,团队需处理WHO API中多个子维度与分层定义(如按性别、地区类型划分),并区分不同烟草制品类别,确保每一行观测值的唯一性。此外,置信区间的不完整记录与部分国家数据稀疏(仅358条记录)增加了建模难度,要求研究者谨慎处理小样本下的统计推断与缺失值插补。这些挑战共同指向在有限且异构的数据条件下,如何稳健地评估税收政策对公共健康的影响。
常用场景
经典使用场景
在世界卫生组织全球健康观察的框架下,该数据集聚焦于非洲国家2008至2022年间增值税在烟草及尼古丁产品价格中所占比例的演变趋势。研究者常利用其分层维度(如烟草制品类型),分析不同国家与年份间税收政策的差异,并借助置信区间评估估计值的可靠性。这一经典用法为健康经济学领域提供了量化税收影响的基础数据支撑。
解决学术问题
该数据集主要解决了非洲地区烟草税收政策研究中长期存在的跨国可比性不足和细粒度数据缺失问题。通过整合47个国家的统一指标,学者得以系统评估增值税对烟草消费的调控效果,揭示税收在降低吸烟率、改善公共卫生中的边际贡献。其意义在于填补了非洲区域税收-健康关联的实证空白,为世界卫生组织的减税政策倡导提供了可验证的分析依据。
实际应用
在实际应用中,该数据集被国际组织与政策制定者用于构建非洲国家烟草税负指数,监控各国是否达到世卫组织推荐的税收占比标准。公共卫生机构可结合增值税数据与疾病负担模型,预测烟草消费税调整对非传染性疾病发病率的影响,从而优化“健康税收”策略以平衡财政增收与公共卫生目标。
数据集最近研究
最新研究方向
在公共卫生政策与财税交叉领域,非洲增值税(VAT)作为烟草等健康风险产品价格组成部分的实证研究正成为前沿热点。依托WHO全球健康观察站(GHO)2008至2022年覆盖47个非洲国家的“税收占价格比例”指标,该数据集为量化财政工具对控烟效果的经济学评估提供了关键支撑。其价值在于揭示了税收结构在健康干预中的杠杆作用,尤其是在发展中国家税基薄弱、健康支出紧张的背景下,VAT占比的波动直接映射了各国财政政策与WHO《烟草控制框架公约》履约进程的动态博弈。该数据集的机器可用性(ML-ready)和一致性架构,推动了跨区域税收政策与健康结果关联的因果推断研究,为优化税收策略以提升公共健康收益奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



