electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-total-tax
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-total-tax
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2008年至2020年间,世界卫生组织全球健康观察站(WHO GHO)指标“最畅销品牌香烟的税收占价格百分比 - 总税收”(`R_total_tax_estimate`)的国家级观测数据。数据来源于WHO GHO的OData API,并以Parquet文件格式重新打包,包含数值估计(浮点精度字段)和置信区间界限(`value_low`、`value_high`,如果可用)。所有值均来自`NumericValue`字段,而非显示字符串。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Most sold brand of cigarettes - taxes as a % of price - total tax" (`R_total_tax_estimate`) across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区最畅销卷烟品牌总税占价格百分比的指标(R_total_tax_estimate)。数据被重新打包为Parquet格式,遵循一致的架构设计,提取NumericValue字段作为数值精度核心,并附带置信区间上下限(value_low, value_high)。其覆盖2008至2020年间47个非洲国家的310条观测记录,每条记录对应单一国家与年份,无额外子维度分层。
特点
数据集以简洁的表格结构呈现,包含indicator_code、country_iso3、who_region、year、value_numeric等字段,其中value_numeric作为机器学习的主要目标变量。置信区间字段的纳入增强了统计可靠性,而value_display字符串则保留原始格式信息。所有数据均经过WHO AFRO区域筛选,确保地域聚焦性,并遵循CC BY 4.0许可协议,便于学术与政策研究复用。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,例如执行load_dataset('electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-total-tax')并将其转换为Pandas DataFrame进行后续分析。针对性别或居住地类型的子维度过滤,可依据dim1字段进行筛选,例如仅保留两性(_BTSX)数据以获取国家层面估值。此外,通过country_iso3列可轻松提取特定国家的时间序列,如对肯尼亚数据按年份排序,从而支持跨国比较或时序建模任务。
背景与挑战
背景概述
烟草税收作为控烟政策的核心工具,其价格占比直接反映各国对烟草消费的经济干预力度。世界卫生组织全球卫生观察站(WHO GHO)于2020年发布的该数据集,由Electric Sheep Africa团队整理并重构于HuggingFace平台,聚焦非洲47个国家2008至2020年间最畅销卷烟品牌的总税额占零售价百分比(R_total_tax_estimate)。该指标旨在量化各国通过税收手段抑制烟草消费的成效,为评估非洲地区控烟政策执行差异、比较区域税收强度提供标准化数据基础。作为首个面向机器学习整合的非洲烟草税收结构化数据集,其开放共享推动了卫生经济学与数据科学交叉领域的研究,尤其为低收入国家的政策模拟与健康影响评估提供了关键实证依据。
当前挑战
该数据集所解决的领域问题在于,非洲地区烟草消费税数据长期零散且可比性弱,缺乏统一的时间序列框架来支撑跨国政策效果比较与宏观健康影响建模。既往研究多依赖单一国家调查或二手估算,难以捕捉区域动态变化。在构建过程中,主要挑战包括:原始WHO OData API的异构结构与非连续发布周期需要清洗对齐,以保证47国跨13年共310条观测的时空一致性;置信区间字段(value_low, value_high)的引入增加了缺失值处理复杂度;同时,需排除子维度(性别、城乡)的分层干扰,确保仅聚焦国家-年份层面的点估计值,这对后续回归分析的特征工程提出了精细化要求。
常用场景
经典使用场景
该数据集聚焦于非洲国家最畅销卷烟品牌价格中总税收所占百分比(指标代码R_total_tax_estimate),覆盖2008至2020年间47个非洲国家的观测数据。作为WHO全球卫生观察站数据的标准化重构,它被广泛用于分析烟草税收政策对价格结构的跨时空影响。典型研究通过面板数据模型,探究税收占比与卷烟消费量、烟草可负担性之间的动态关联,或比较不同国家在烟草税制设计上的差异性。数据集纯净的数值型指标及置信区间,为计量经济学中的政策效应估计提供了稳健基础。
衍生相关工作
以此数据集为基础,衍生出诸多经典学术产出。例如,有研究将其与各国民众烟草支出调查数据结合,构建了埃塞俄比亚、肯尼亚诸国的烟草税负累进性模型;也有工作利用时序分析,揭示加纳、尼日利亚等地增值税调整对卷烟零售价的实际传递率。此外,它与‘烟草价格-消费弹性’元分析数据集联动,形成了非洲烟草控制政策影响的系统评估框架,被反复引用于全球烟草经济学的比较研究之中。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区最畅销香烟品牌的税收占价格百分比(总税)指标,为全球烟草控制政策评估提供了关键数据支撑。前沿研究方向涵盖税收对烟草消费行为的跨时期动态影响、不同国家税负差异与吸烟率变化的相关性分析,以及结合机器学习模型预测税收调整对公共卫生和经济产出的联动效应。正值世界卫生组织推动《烟草控制框架公约》实施之际,该数据集的标准化时间序列(2008-2020年)和置信区间信息,有助于研究者量化税收政策的实际渗透力,并揭示欠税与健康不平等之间的结构性关联,从而为非洲国家制定科学化的烟草税制改革、减少非传染性疾病负担提供实证依据。
以上内容由遇见数据集搜集并总结生成



