electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-other
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-other
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标销售最多的香烟品牌 - 税收占价格百分比 - 其他税收(R_Other_estimate)在非洲国家的国家级别观察数据,时间跨度为2008年至2020年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Most sold brand of cigarettes - taxes as a % of price - other taxes (R_Other_estimate) across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲地区最畅销卷烟品牌中其他税收占价格百分比的指标(R_Other_estimate)。数据通过OData API直接采集,并经过统一架构重整为Parquet格式文件,所有数值均采用浮点精度的NumericValue字段,而非显示字符串。置信区间上下限(value_low、value_high)在可用时一并收录,覆盖2008年至2020年间47个非洲国家的310条观测记录,无子维度分层,确保每个国家与年份组合仅对应单一数值。
特点
该数据集以机器学习就绪为核心理念,具备高度结构化与一致性的特征。其模式包含indicator_code、country_iso3、year等关键字段,并保留value_numeric作为主要回归目标,辅以置信区间便于误差分析。数据严格限定于WHO非洲区域(AFRO),横跨13年时间跨度,涵盖47个国家,为研究非洲烟草税政策提供了精细的纵向面板数据。由于无子维度拆分,数据集简洁明了,特别适合跨国比较与时间序列建模。
使用方法
用户可通过HuggingFace Datasets库便捷加载数据,并利用to_pandas()方法转换为DataFrame进行深入分析。建议基于dim1字段筛选出两性合计(_BTSX)或空值的行,以获取国家级别的整体估计。针对特定国家的时间序列研究,可按country_iso3字段过滤并依year排序。该数据集主要适用于回归任务,亦可用于分类场景,例如将税收占比离散化为政策强度等级,从而支撑烟草经济影响评估或公共卫生干预策略的建模工作。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,经Electric Sheep Africa团队重新整理后发布于HuggingFace平台,旨在提供非洲国家中最畅销卷烟品牌中“其他税收”占价格百分比的指标(R_Other_estimate),覆盖2008至2020年间47个非洲国家的310条观测记录。核心研究问题聚焦于烟草税收结构对公共健康的影响,尤其是其他税收(非消费税、增值税等特定税种)在卷烟价格构成中的比重。作为非洲地区健康政策研究的重要数据资源,它有助于分析税收政策在控烟效果中的作用,填补了非洲大陆在烟草经济与健康交叉领域的数据空白,对全球控烟政策评估及区域健康经济学研究具有推动价值。
当前挑战
该数据集所解决的领域挑战在于,传统烟草税收研究多集中于消费税或总税负,而“其他税收”成分常被忽视,此数据集首次系统呈现这一细分指标在非洲国家的分布,为理解税收结构对卷烟消费行为的影响提供新视角。构建过程中面临的挑战包括:从WHO OData API抓取数据时需处理不同年份间统计口径的潜在差异,以及部分国家或年份的置信区间缺失问题。此外,由于指标本身非分层(无子维度),单一年份和国家的数据仅有一个值,这限制了多维分析的可能性,且小样本量(310条)也需谨慎处理过拟合或统计效力不足的风险。
常用场景
经典使用场景
在全球公共卫生与烟草经济交叉研究领域,该数据集以非洲47个国家2008至2020年间最畅销卷烟品牌的其他税收占比为核心指标,为跨国比较与时间序列分析提供了标准化且易于机器学习模型处理的数据基础。研究者可借助该数据集构建分类或回归模型,探究税收政策强度与烟草市场结构之间的关联,或是将其作为预测变量,评估税收负担对吸烟率、消费行为等健康结局的潜在影响。数据集中提供的置信区间信息进一步增强了统计建模的严谨性,使其适用于高频政策监测与稳健性检验。
实际应用
在实际应用中,该数据集可服务于世界卫生组织非洲区域办事处及各国卫生部门进行烟草税制的动态监测与后果评估。例如,政策制定者可通过追踪某一国家历年其他税收占比的变化,结合同期卷烟消费率数据,判断税收结构调整是否有效抑制了烟草消费。同时,该数据集也可嵌入国际税收比较平台,为跨国经验借鉴提供直观证据。在机器学习部署层面,其结构规整、特征清晰,适合作为基础特征输入到自动化的政策影响预测系统中,辅助模拟不同税改方案的潜在效果。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。以Electric Sheep Africa数据集合为基础,研究者构建了非洲健康经济指标的统一仓,推动了跨指标关联分析——例如将本数据集的税收占比与同一来源中的卷烟可负担性指标R_Overaff_estimate进行配对,探讨税收与购买力对消费的协同效应。此外,基于该数据集的分类任务设计,部分工作尝试利用随机森林或线性回归模型以税收特征预测国家控烟成效等级。这些研究不仅验证了数据集作为监督学习输入的可行性,还为后续构建融合民俗、收入等多维特征的非洲健康经济基础模型提供了宝贵范式。
以上内容由遇见数据集搜集并总结生成



