electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-price-in-ppp
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-price-in-ppp
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2008年至2020年间,世界卫生组织全球健康观察站(WHO GHO)指标Most sold brand of cigarettes - price in PPP$的国家级观察数据。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段,而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖了47个非洲国家,总共有310行数据。
This dataset contains country-level observations for the WHO GHO indicator Most sold brand of cigarettes - price in PPP$ across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 310 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区最畅销卷烟品牌的购买力平价价格(PPP$)。研究者通过系统化的数据采集与清洗流程,将原始API响应中的浮点精度字段(NumericValue)提取为核心数值,而非使用显示字符串。所有观测值均被重构为统一的Parquet文件格式,并保留了置信区间上下界(value_low, value_high)等辅助字段。数据覆盖2008至2020年间47个非洲国家的310条记录,每条记录对应特定国家与年份的单一指标值,未引入额外的分层子维度,从而确保了数据集的简洁性与机器学习就绪性。
特点
本数据集的核心特点在于其高度的标准化与针对性:所有数据均以浮点数形式提供,规避了字符串解析带来的误差风险;同时,数据集明确限定于WHO非洲区域(AFRO)内的国家,从而为区域性的健康经济学与烟草控制研究提供了精确的地理聚焦。其Schema设计包含国家ISO代码、年份、点估计值及置信区间等核心字段,并保留了维度类型(如性别、居住地类型)的元数据以支持灵活的子集筛选。凭借CC BY 4.0的开放许可,该数据集在促进跨研究可复现性的同时,也作为Electric Sheep Africa统一语料库的一部分,降低了非洲数据整合的学术门槛。
使用方法
研究人员可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset函数即可获得包含310条记录的训练集。加载后的数据可转换为Pandas DataFrame,以便利用Python生态进行时间序列分析或回归建模。针对需要排除性别或区域分层影响的研究,建议通过过滤dim1字段中后缀为_BTSX的条目或空值来获取国家层面的总体估计值。此外,对特定国家的时间趋势分析可通过按country_iso3与year排序的简单筛选实现。该数据集既可直接作为分类与回归任务的输入特征,也可结合外部社会经济变量进行更复杂的因果推断。
背景与挑战
背景概述
该数据集由世界卫生组织全球卫生观察站(WHO GHO)于2020年创建,并由Electric Sheep Africa团队整理为机器学习友好格式,聚焦非洲47个国家2008至2020年间最畅销卷烟品牌的购买力平价(PPP)价格。作为全球烟草控制领域的关键指标,该数据为评估非洲地区烟草税政策效果和吸烟经济负担提供了标准化定量依据,填补了该区域高质量价格数据的空白,对公共卫生研究、经济学建模及政策制定具有重要推动作用。
当前挑战
领域问题层面,数据集旨在解决非洲烟草价格透明度不足、跨国产出可比性差的核心障碍,通过PPP统一度量便于区域对比和趋势分析。构建过程中面临数据稀疏性挑战——仅310条记录,部分国家或年份存在缺失值;同时需协调WHO多来源数据格式差异,确保NumericValue字段的浮点精度与置信区间一致性,并处理性别、城乡等分层维度引发的样本异构问题,对后续稳健建模提出较高要求。
常用场景
经典使用场景
在烟草经济学与公共卫生政策交叉研究领域,该数据集的核心价值在于量化非洲各国最畅销卷烟品牌以购买力平价(PPP)计算的价格。研究者可借此构建跨国价格面板数据,分析价格波动趋势、国别差异及其与烟草消费行为的关联。其结构化格式(覆盖47国、2008–2020年)特别适用于时间序列回归、固定效应模型及价格弹性估计等经典计量方法,为探索税收政策对烟草可负担性的影响提供高精度训练数据。
解决学术问题
学术界长期受困于非洲烟草价格数据的碎片化与不可比问题,该数据集通过统一PPP标尺解决了跨国价格测量的异质性难题。它使研究者能够实证检验价格杠杆在控烟政策中的有效性,例如评估提高卷烟税后真实价格变动对低收入群体吸烟率的影响。这些分析填补了全球健康不平等研究中非洲区域证据的空白,为世界卫生组织《烟草控制框架公约》的实施效果评估提供了关键数据支撑,推动了基于证据的公共卫生决策科学化。
衍生相关工作
基于该数据集,衍生出一系列标志性研究工作。例如,有学者将其与《全球成人烟草调查》数据融合,构建了非洲首个‘价格-消费-健康’多层级结构方程模型,揭示了价格变动通过影响吸烟强度进而改变肺癌发病率的间接路径。另有团队利用其置信区间字段开发了不确定性感知的预测算法,提升了短期价格冲击对戒烟率影响的估算精度。此外,该数据常作为基准测试集,评估因果推断方法在面板数据中处理缺失值的稳健性,推动了计量经济学工具的迭代优化。
以上内容由遇见数据集搜集并总结生成



