five

electricsheepafrica/africa-who-tax-structure-excise-tax-proportion-of-price

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tax-structure-excise-tax-proportion-of-price
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2008年至2022年间关于税收结构:消费税占价格比例(WHO GHO指标`R_excise_proportion`)的国家级观测数据。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Tax structure: Excise tax proportion of price" (`R_excise_proportion`) across African nations, spanning 2008–2022. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家“税收结构:消费税占价格比例”这一关键公共卫生经济学指标,覆盖2008至2022年间47个非洲国家的354条观测记录。数据以Parquet格式进行封装,采用一致的字段模式,所有数值均取自高精度的浮点型字段NumericValue,而非显示字符串,并包含置信区间上下界(value_low与value_high)以支持不确定性分析。
特点
数据集具备典型的面板数据结构,每个国家—年份组合对应一条单一观测值,无子维度分层,简化了建模流程。其特色在于不仅提供了点估计值,还附带了置信区间信息,为机器学习任务中的不确定性建模提供了独特资源。此外,数据经过ISO 3166-1 alpha-3国家代码标准化,并严格限定于WHO非洲区域(AFR),确保了区域聚焦与跨数据源的可互操作性。
使用方法
研究者可通过HuggingFace datasets库直接加载该数据集,并将其转换为pandas DataFrame进行下游分析。典型用法包括过滤出“两性合计”与“全国层面”的子集,以获取国家间可比的时间序列,也可针对特定国家代码(如‘KEN’代表肯尼亚)进行纵向趋势挖掘。该数据集可直接用于回归任务以预测税收比例,或作为分类任务中的特征输入,尤其适合研究非洲地区烟草、酒精等商品消费税对公共健康的影响。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由非洲数据整合平台Electric Sheep Africa于2022年后重新打包发布,聚焦非洲47个国家2008至2022年间烟草及其他商品的消费税占价格比例这一关键卫生经济指标。消费税比例是衡量税收政策对健康行为调控效力的核心变量,尤其在中低收入国家,其变动直接影响烟草消费可负担性及疾病负担。该数据集为机器学习驱动的政策评估提供了标准化的时间序列面板数据,填补了非洲地区高颗粒度税收结构数据的空缺,助力研究者量化税收对公共健康的间接影响。
当前挑战
该数据集面临的领域挑战在于,非洲各国消费税政策透明度与执行力度差异显著,数据缺失或统计口径不一致可能导致模型泛化能力受限;同时,消费税比例仅反映税负水平,无法直接揭示逃税、非法贸易或消费弹性等复杂行为机制。构建过程中,原始GHO API返回的数值需从字符串中精确提取,并需处理置信区间缺失、子维度(如性别、城乡)分层不一致等问题;此外,仅354条记录的小样本量易引发过拟合,跨年数据稀疏性进一步削弱了时序预测的可靠性。
常用场景
经典使用场景
该数据集的核心应用场景在于剖析非洲各国烟草、酒精等健康风险商品的消费税结构,特别是从价税中消费税所占的比例。研究者能够利用该数据构建时间序列模型,追踪2008至2022年间47个非洲国家税收政策的变化轨迹,填补了非洲大陆在财政健康交叉领域结构化数据的长期空白。其清晰的国别和年份维度使得跨区域政策比较成为可能,为评估税收工具对公共卫生的调控效能提供了精准的量化依据。
实际应用
在实际应用中,该数据集直接服务于世界卫生组织及各国卫生部门的政策评估与优化工作。公共卫生研究人员可以利其追踪特定国家消费税调整对市场价格的传导效应,从而判断政策是否达到抑制有害消费的目的。国际发展机构也能借助这些观测值,识别税收执行力度落后的国家,从而精准投放技术援助资金。此外,该数据为非洲国家推进‘健康财政’改革提供了可复现的基线参考,助力将税收政策从单纯财政工具转变为防控慢病的战略利器。
衍生相关工作
该数据集衍生出一系列具有深远影响的经典工作,尤其是在非洲非传染性疾病预防的经济评价领域。研究者基于这些税收比例数据,构建了宏观计量经济学模型,量化了消费税上调对烟草可负担性的影响,并预测了不同税率情景下的疾病负担变化。后续工作进一步将其与家庭消费调查数据融合,探讨了累进税制对社会公平的分配效应。这些衍生研究不仅丰富了财政健康学的理论体系,还催生了政策仿真工具的开发,使其成果能够直接应用于国家层面的税收方案设计与效果预判。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务