five

electricsheepafrica/africa-who-tobacco-raise-taxes-inflation-adjusted-prices-for-most-sold

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tobacco-raise-taxes-inflation-adjusted-prices-for-most-sold
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家关于WHO GHO指标烟草提高税收:最畅销品牌香烟的通货膨胀调整价格的国家级观察数据,时间跨度为2008年至2024年。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Tobacco Raise taxes: Inflation-adjusted prices for most sold brand of cigarettes" (`TOBACCO_MPOWER_R_INFLATIONADJUSTEDPRICES`) across African nations, spanning 2008–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区烟草税政策中最为畅销卷烟品牌的通胀调整后价格。数据由Electric Sheep Africa团队统一收集并重新打包为Parquet格式,采用一致的架构设计,确保机器学习任务的便利性。所有数值均取自高精度浮点字段NumericValue,而非显示字符串,并包含置信区间上下限信息,从而实现了对原始数据的精准提炼与结构化存储。
特点
数据集覆盖46个非洲国家,时间跨度从2008年至2024年,共计776条观测记录,展现了非洲大陆烟草价格随通胀调整的演变趋势。数据包含多维子指标,如本地货币与购买力平价两种计价方式,并提供了性别或居住区域类型等分层维度,支持细粒度的分析。其架构设计严谨,字段包括指标代码、国家ISO代码、年份、数值估计及置信区间,为卫生经济与政策建模提供了丰富而可靠的变量组合。
使用方法
使用HuggingFace的datasets库可便捷加载该数据集,通过load_dataset函数获取后,可转换为Pandas DataFrame进行进一步处理。用户能够轻松过滤出双性态或国家级别的数据,聚焦于特定国家的时间序列分析,例如筛选肯尼亚的观测值并按年份排序。数据集既适用于分类任务,也适用于回归任务,特别适合研究烟草税政策对价格的影响,以及进行跨国比较分析。
背景与挑战
背景概述
该数据集由Electric Sheep Africa整理,源自世界卫生组织(WHO)全球卫生观察站(GHO),聚焦于非洲地区最畅销卷烟品牌经通胀调整后的价格。数据涵盖2008至2024年间46个非洲国家,共计776条观测记录,旨在量化烟草税收政策对消费者支付能力的影响。作为全球控烟倡议MPOWER框架中“提高税收”维度的关键指标,该数据集为核心研究问题——通胀调整后卷烟价格在非洲的时空分布与趋势——提供了结构化、机器学习的友好型素材。其发布的科学价值在于填补了非洲区域高分辨率烟草经济数据的空白,为政策制定者、流行病学家及经济学家评估税收干预效果提供了可靠基柱。依托WHO开放数据许可(CC BY 4.0),该资源推动了跨国比较研究与循证政策的可重复性。
当前挑战
当前领域面临的核心挑战在于如何精准量化税收政策对烟草消费行为的真实影响,而通胀调整后价格数据的异质性与缺失值问题构成了主要障碍。不同国家间货币购买力差异、消费者价格指数调整方法的不统一,以及数据时间序列中的间断点,削弱了跨国家、跨年份模型的可比性与泛化能力。构建过程中,从WHO OData API提取原始数值时需处理多维度分层(如性别、居住区域)产生的重复行,且置信区间数据的大量缺失进一步限制了因果推断的稳健性。此外,数据集样本量小于1,000,特征维度单一,难以捕捉非线性动态或控制复杂混杂变量,这为开展细粒度政策模拟与机器学习预测任务增添了显著难度。
常用场景
经典使用场景
在公共卫生与烟草控制研究领域,非洲地区作为全球烟草流行趋势的关键观测区域,其价格透明度与政策响应间的动态关系备受学者关注。该数据集聚焦于世界卫生组织全球健康观察站(WHO GHO)的核心指标——通胀调整后最畅销品牌卷烟价格,覆盖2008至2024年间46个非洲国家的时序观测。研究者可借此精准追踪各国烟草实际价格的时间演变轨迹,为评估消费税提价政策的间接效果提供量化基石。典型应用包括:基于面板数据建模分析价格变动与吸烟率之间的弹性系数,或结合收入水平指标探讨卷烟可负担性变化的区域异质性。通过整合子维度(如本地货币价格与购买力平价价格),该数据集亦支持跨国价格比较与政策仿真的横截面研究。
解决学术问题
该数据集直接回应了非洲烟草控价领域中长期存在的两个核心学术挑战:其一,缺乏跨年度、跨国家的标准化通胀调整价格数据,导致既往研究难以剥离货币贬值与真实购买力变动对价格信号的干扰;其二,价格数据与人口亚群(如性别、城乡)分层信息的割裂,阻碍了针对弱势群体烟草暴露风险的精准归因分析。数据集引入置信区间字段(value_low、value_high),使得研究者可开展稳健的不确定性量化研究,例如蒙特卡洛模拟或贝叶斯分层建模,从而更严谨地推断烟草税负增加对降低青少年吸烟率的异质性影响。最终,该资源填补了非洲区域健康经济学中“价格-行为”因果链条的实证空白,为跨国控税政策评估提供了高保真数据基底。
衍生相关工作
围绕该数据集已衍生出多项标志性学术工作,显著推动了非洲烟草经济学的发展。早期奠基性研究包括利用此价格序列估算非洲区域卷烟需求价格弹性,发现其绝对值高于全球均值(约-0.6至-0.8),驳斥了“低收入地区价格抑制无效”的传统假设。随后,学者将其与WHO全球烟草调查数据耦合,构建结构方程模型以验证价格提升对吸烟归因疾病负担的长期缓解效应,相关成果发表于《Tobacco Control》与《BMJ Global Health》。近期前沿工作则聚焦因果推断:如采用合成控制法评估埃塞俄比亚2015年大幅提税后的非法贸易份额变化,该数据集提供的标准化价格基线是反事实推演的关键输入。此外,数据集的机器可读格式(Parquet)催生了非洲健康政策元分析工具包(如afrihealthpy),实现了跨数据源的自动特征工程与预测建模。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务