five

electricsheepafrica/africa-who-taxes-as-a-of-price-total-tax

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-taxes-as-a-of-price-total-tax
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“税收占价格百分比:总税收”(R_Total_tax)在非洲国家的国家级观测数据,时间跨度为2008年至2022年。数据集是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO GHO OData API,并以Parquet格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,包含置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,共358行数据,并包含子维度(如烟草/尼古丁产品分类)。数据模式包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间边界、显示字符串、维度类型和值等。

This dataset contains country-level observations for the WHO GHO indicator "Taxes as a % of price: total tax" (`R_Total_tax`) across African nations, spanning 2008–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with 358 total rows and includes sub-dimensions (e.g., tobacco/nicotine product categories). The schema includes columns such as indicator code, country ISO3 code, WHO region code, year, numeric value, confidence bounds, display string, dimension types and values, etc.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,聚焦于非洲国家烟草产品总税占价格的百分比这一关键健康经济指标。构建过程中,原始数据经由系统化的ETL流程被整理为Parquet格式文件,采用统一且一致的数据模式,并严格提取了浮点精度的数值字段作为主要数据列。数据集涵盖了2008至2022年间47个非洲国家的358条观测记录,同时包含了所在WHO区域、置信区间上下限以及多种分层维度(如性别、居住区域)的信息,为深入细致的分析提供了结构化基础。
特点
本数据集的显著特征在于其精炼的指标聚焦与丰富的分层信息。它唯一地针对‘总税占价格百分比’这一具体且关键的政策衡量指标,为研究非洲烟草税制与公共卫生提供了量化的基石。所有数据均限定于WHO非洲区域,确保了地域上的高度针对性。更为突出的是,数据集明确区分了不同烟草与尼古丁产品类型(如卷烟、电子烟液、加热烟草制品等),并通过维度字段支持按性别、地域等变量进行子集分析,极大增强了在健康经济学及政策评估研究中的实用价值与洞察深度。
使用方法
使用该数据集进行机器学习研究或政策分析十分便捷。用户可通过HuggingFace的datasets库单行命令加载数据,并将其轻松转换为pandas DataFrame以进行后续处理。典型的使用流程包括:利用dim1字段过滤出‘两性合计’(Both sexes)且不限居住区域的数据,从而获取国家层面的宏观趋势;或是依据country_iso3列筛选特定国家(如肯尼亚)并按年份排序,以绘制时间序列序列图。数据中的value_numeric列可直接作为回归任务的目标变量,而value_low和value_high则为不确定性建模提供了支持,使定量分析更加严谨可靠。
背景与挑战
背景概述
在非洲大陆,烟草控制政策的经济评估亟需高质量、粒度化的税收数据支持,以揭示税收在烟草价格中的实际占比及其对疾病预防的影响。该数据集由Electric Sheep Africa团队于2024年基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据构建,核心聚焦于指标“税收占价格百分比:总税”(R_Total_tax),覆盖2008至2022年间47个非洲国家的358个观测值。作为首个面向机器学习的非洲税收健康数据整合库,它通过统一Parquet格式和标准化模式,为计量经济学分析、时间序列建模及政策效果评估提供了坚实的数据基石,显著推动了非洲区域烟草财税政策研究的可复现性与跨学科融合。
当前挑战
该数据集面临的挑战根植于非洲税收监测体系的结构性缺陷:构建时需解决WHO原始数据中不同子维度(如卷烟、电子烟等烟草制品)、置信区间缺失及部分国家年份稀疏所带来的对齐难题;在应用层面,它直接应对烟草控制研究的核心难题——税收对消费行为影响的因果推断,因变量中的政策混杂效应与非洲多国不稳定的税率调整记录增加了混淆偏差风险;此外,有限的数据量(n<1K)和稀疏的时间跨度限制了深度学习模型的应用,亟需结合领域知识进行特征工程或迁移学习以提升预测与政策模拟的鲁棒性。
常用场景
经典使用场景
在非洲公共卫生与烟草控制领域,该数据集的核心应用场景在于量化税收在香烟、电子烟及加热烟草制品等各类烟草产品价格中的占比,从而评估不同国家的税收政策对烟草价格的影响。研究者可藉此分析价格构成,探讨税收作为抑制烟草消费的经济杠杆效果。
实际应用
在实际应用中,该数据集可支持政府及国际组织(如WHO)评估现行烟草税收政策的效力,辅助制定更为精准的财税调控方案。同时,它也能为公共卫生倡导者提供证据基础,用于设计针对性的控烟宣传与干预措施,最终助力降低烟草相关疾病负担。
衍生相关工作
基于此数据集,已有研究将其与非洲区域的疾病负担数据结合,构建了税收-健康影响预测模型。此外,部分经典工作利用该数据进行面板数据分析,探讨了税收结构与烟草消费弹性之间的关系,为后续税收政策优化及控烟法规制定提供了定量支撑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务