five

electricsheepafrica/africa-who-taxes-as-a-of-price-specific-excise

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-taxes-as-a-of-price-specific-excise
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标“Taxes as a % of price: specific excise”(R_Sp_excise)的国家级观测数据,时间跨度为2008年至2022年。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包。数据集包含47个非洲国家,共358行数据。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集还包含子维度(如TOBACCO_NICOTINE_PRODUCT)和详细的模式(schema)信息。

This dataset contains country-level observations for the WHO GHO indicator "Taxes as a % of price: specific excise" (R_Sp_excise) across African nations, spanning 2008–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲国家在2008至2022年间“特定消费税占价格百分比”(R_Sp_excise)这一关键指标。原始数据经过系统性地提取与清洗,以Parquet文件格式重新封装,并纳入统一的列式模式,其中核心数值取自高精度的NumericValue字段而非显示字符串。此外,数据集保留了置信区间上下限(value_low、value_high)及维度分层信息(如烟草产品类型、性别、居住区域),使得每一条记录均对应国家、年份与特定维度的唯一组合,便于精细化的统计分析与机器学习建模。
特点
该数据集覆盖47个非洲国家,共计358条观测记录,时间跨度达15年,具有鲜明的区域针对性与时间序列特征。其最大亮点在于多维度的结构化设计,不仅包含核心税收比例数值,还融入了烟草尼古丁产品的子类(如最畅销卷烟、开放式电子烟液、加热烟草制品等),以及按性别和城乡区域划分的亚组数据,极大丰富了分析层次。数据以机器学习就绪(ML-ready)的姿态呈现,列式存储与标准化字段命名降低了预处理门槛,适用于分类与回归任务,尤其适合探讨非洲国家烟草税收政策与健康经济之间的关联。
使用方法
使用者可通过HuggingFace Datasets库的一行代码快速加载数据集,并利用to_pandas方法转换为DataFrame进行后续操作。针对特定分析需求,建议根据dim1字段过滤出“两性合计”(_BTSX)级别的全国数据,以获取无分层的基准值;亦可按country_iso3列筛选单一国家的时间序列,例如选取肯尼亚(KEN)的数据按年份排序后开展趋势分析。对于需要合并或对比不同产品类别的场景,可依据dim1和dim2字段的层级关系进行分组聚合,充分释放维度信息的价值。数据集的轻量级特性(n<1K)使其在低算力环境下亦能流畅运行。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2022年整理发布,源自世界卫生组织全球健康观察站(WHO GHO),聚焦非洲47个国家在2008至2022年间特定消费税(specific excise)占价格的百分比指标(R_Sp_excise)。烟草消费带来的健康与经济负担在非洲尤为严峻,世界卫生组织推荐税收政策作为控烟核心手段,然而该地区税务数据的系统性与可比性长期不足。此数据集以统一格式整合分散的官方统计,涵盖多类烟草及尼古丁产品税负数据,为公共卫生、发展经济学及政策建模领域提供了高质量、机器学习兼容的非洲样本,填补了区域级税收研究数据空白,有力支撑了跨国产出分析与循证决策。
当前挑战
该数据集所解决的领域核心挑战在于非洲国家烟草消费税数据长期零散、统计口径不一,难以支持区域性建模与比较研究,例如缺乏产品细分税负指标、置信区间缺失及时间序列断裂等问题。构建过程中亦面临多重障碍:原始数据来自不同年份与国家的调查,需处理大量非标准化的展示字符串,统一为浮点数数值;国家代码与维度信息(如性别、城乡)需交叉校验;358条记录虽精简,却需依赖WHO AFRO区域过滤与多重子维度筛选才能提取有效样本,数据稀疏性导致传统统计推断易受偏差影响,给机器学习模型的泛化能力带来考验。
常用场景
经典使用场景
该数据集聚焦于非洲国家在烟草及尼古丁产品领域实施的从量税占价格比重的统计指标,涵盖2008至2022年间47个非洲国家的面板数据。其经典使用场景集中于税收政策对烟草消费行为的量化分析,研究者可通过该数据集考察不同产品类别(如卷烟、电子烟液、加热不燃烧烟草等)的从量税负差异,并利用时空双重维度识别税收政策与烟草使用率之间的动态关联。数据集同时提供置信区间和分层维度(性别、城乡等),便于开展精细化的政策效应评估。
解决学术问题
该数据集解决了非洲公共卫生经济学领域中长期存在的税收数据碎片化痛点,为跨国产出的税收政策比较提供了标准化、机器可读的可靠来源。学术界可借助其精确的数值字段和分层信息,探究从量税对烟草消费的抑制效应、税收负担在不同社会群体间的分配公平性,以及税收政策在控制非传染性疾病(如肺癌、心血管疾病)中的杠杆作用。该数据集的发布填补了非洲大陆在WHO全球健康观测站框架下烟草税收指标的公开数据空白,显著推动了低收入国家健康财税政策的本土化研究。
衍生相关工作
基于该数据集衍生了多项经典研究工作,包括构建非洲烟草税收政策指数(Tax Policy Index),系统量化各国从量税与从价税的结构比重;开发跨时期税收负担转移模型,研究通货膨胀如何侵蚀实际烟草税率;以及整合该数据与烟草使用率调查,开展面板回归分析以估计税收弹性系数。部分研究者还将其与健康支出数据联动,评估税收增长与疾病经济负担减轻之间的因果关系,为循证政策设计提供了坚实的方法论基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务