electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-price-in-us-at-official
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-price-in-us-at-official
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2008年至2020年间,世界卫生组织全球健康观察站(WHO GHO)指标最畅销品牌香烟的价格(以官方汇率计算的美元价格)的国家级观测数据。数据集来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段,而非显示字符串。此外,数据还包含可用的置信区间边界(value_low, value_high)。数据集覆盖了47个非洲国家,总共有310行数据。
This dataset contains country-level observations for the WHO GHO indicator Most sold brand of cigarettes - price in US$ at official exchange rates across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,专注于非洲地区最具销量卷烟品牌在官方汇率下的美元价格指标(R_Price_mp_estimate_usd)。数据经过Electric Sheep Africa项目的系统化整理与重封装,以Parquet文件格式存储,并统一采用精确浮点数值(NumericValue)而非展示字符串,同时保留置信区间边界(value_low, value_high)等辅助信息,形成结构一致、可直接用于机器学习的表格数据。
特点
数据集覆盖2008至2020年间47个非洲国家的310条观测记录,每条记录代表特定国家与年份的单一点估计值,无子维度分层。其架构包含indicator_code、country_iso3、who_region、year、value_numeric等核心字段,并附有维度类型与数值标识(dim1_type, dim1等),便于按性别、居住地类型等维度进行筛选和分析,适合开展烟草价格相关的回归或分类任务。
使用方法
用户可通过HuggingFace Datasets库轻松加载该数据集:使用load_dataset函数直接获取训练集,并调用to_pandas方法转换为DataFrame格式进行后续分析。推荐先过滤dim1字段以保留全国层面且不分性别的观测值(如BTSX后缀或缺失值),再针对特定国家(如ISO代码'KEN')按年份排序以构建时间序列,从而高效提取所需子集进行建模或可视化研究。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,经Electric Sheep Africa团队重新整理并发布于HuggingFace平台,聚焦于非洲地区2008至2020年间最畅销香烟品牌以官方汇率计价的美元价格。作为一项跨国家、跨年度的面板数据,其核心研究问题在于揭示非洲烟草消费的经济维度,为公共卫生政策制定者、流行病学家及健康经济学家提供关键参考。该数据集涵盖47个非洲国家,共计310条观测记录,凭借其标准化架构和机器学习就绪特性,在烟草税制评估、健康经济建模及区域卫生不平等研究中发挥着奠基性作用,亦为后续非洲健康数据整合与开放科学运动树立了范式。
当前挑战
该数据集所应对的领域核心挑战在于:非洲地区烟草价格数据的稀疏性与非标准化长期阻碍着跨国比较研究和循证政策的制定,不同国家汇率波动与官方统计口径的差异更增加了分析难度。构建过程中,研究团队面临多重障碍:首先,需从WHO OData API中精准提取并清洗缺失值,确保价格数据的数值精度而非展示字符串;其次,需统一处理47国跨越13年的异构数据格式,并保留仅部分年份可用的置信区间信息;此外,还需协调不同维度的分层标准(如性别、城乡类型),在保证数据完整性的同时维护表结构一致性,最终形成机器学习可直接调用的Parquet文件格式。
常用场景
经典使用场景
在非洲公共卫生与烟草控制研究领域,经典使用场景聚焦于构建基于时间序列的跨国面板数据模型,以分析香烟价格在不同非洲国家的分布特征与演变趋势。研究者常利用该数据集中的‘value_numeric’字段作为核心因变量,结合年份与国家标识进行跨时期、跨地域的对比分析,从而揭示烟草定价政策对消费行为的潜在影响。该数据集为非洲区域的烟草经济学研究提供了标准化、机器可读的量化基础。
解决学术问题
该数据集有效解决了非洲大陆尺度下香烟价格统一量化数据的稀缺性问题,使得研究者能够突破传统调查中数据碎片化、口径不一的瓶颈。它赋能了烟草税赋效果评估、价格弹性测算及吸烟率与价格关联性分析等经典学术议题。通过提供置信区间字段,数据集的引入提升了统计推断的严谨性,为推动循证卫生政策制定提供了坚实的数据支撑。
衍生相关工作
基于该数据,衍生出了多项富有启发性的研究工作,包括构建跨年度香烟价格指数以揭示通胀与税收政策对价格的叠加效应,以及将香烟价格与其健康负担指标(如肺癌发病率、吸烟相关死亡率)进行联合分析。此外,研究者还将其作为非洲区域烟草控制研究中的重要协变量,整合至更广泛的健康行为决定因素模型中,推动了跨学科研究范式的融合。
以上内容由遇见数据集搜集并总结生成



