five

electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-price-in-currency-reported

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-price-in-currency-reported
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标最畅销香烟品牌的价格(以报告货币计)(R_Price_mp_estimate)在非洲国家2008年至2020年间的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Most sold brand of cigarettes - price in currency reported" (`R_Price_mp_estimate`) across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,系统性地采集了非洲地区47个国家在2008至2020年间最畅销卷烟品牌以当地货币报告的价格信息。原始数据经过重新整理与标准化处理,以Parquet文件格式封装,并统一了数据模式。所有数值均取自NumericValue字段(即浮点精度数值),而非显示字符串。对于可获得的数据,还一并纳入了置信区间上下限(value_low、value_high),确保统计精度。数据集仅聚焦WHO AFRO区域(ParentLocationCode='AFR'),共计310条观测记录,每个国家-年份组合对应单一数值,无额外子维度分层。
特点
该数据集一个显著特点在于其结构简洁且针对性强,专为非洲区域的烟草价格监测而设计。数据集包含14个字段,涵盖指标代码、国家ISO3代码、WHO区域、年份、数值估计值及置信区间、显示字符串、维度类型与取值等关键信息。由于无子维度分层,每条记录唯一标识一个国家在特定年份的卷烟价格,极大简化了跨国家、跨年份的横向比较与时间序列分析。数据已做好机器学习就绪(ML-ready)的预处理,可直接应用于表格分类或回归任务,为公共卫生政策研究提供了高质量的基础数据源。
使用方法
调用该数据集极为便捷,用户可通过HuggingFace的datasets库一次性加载:使用load_dataset('electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-price-in-currency-reported')获取数据,并转换为Pandas DataFrame以进行后续分析。针对特定分析需求,可通过筛选dim1字段中的'SEX_BTSX'或空值来提取双性别国家层面的数据。对于时间序列分析,则可依据country_iso3字段过滤特定国家(如'KEN'代表肯尼亚),再按年份排序。数据集所有字段均采用清晰一致的命名规范,助力研究人员高效开展统计建模与政策评估工作。
背景与挑战
背景概述
烟草控制是全球公共卫生领域长期关注的焦点,世界卫生组织(WHO)通过全球健康观察站(GHO)持续监测各成员国的烟草相关指标。该数据集由Electric Sheep Africa团队于2020年依据WHO GHO开放数据重新整理构建,聚焦非洲地区最畅销卷烟品牌以当地货币报告的价格,覆盖2008至2020年间47个非洲国家的310笔观测记录。作为首个面向机器学习而统一格式化的非洲烟草价格数据集,其核心研究问题在于揭示价格在烟草消费调控中的作用,并为区域卫生经济建模提供可靠基础。该数据集的推出填补了非洲地区高颗粒度烟草价格公开数据的空白,对于评估税收政策、推动WHO《烟草控制框架公约》在非洲的实施具有显著的学术和政策影响力。
当前挑战
该数据集所解决的领域问题在于,烟草价格是影响吸烟行为与公共卫生干预成效的关键变量,然而非洲多数国家缺乏标准化、持续更新的价格监控数据,导致区域比较和计量分析精度不足。构建过程中面临的主要挑战包括:1)原始WHO OData API的返回值存在缺失与格式不统一,需对NumericValue字段做严格的浮点数精度提取而非使用显示字符串;2)缺少子维度分层(如城乡、性别),使得数据仅反映国家层面的单一估计值,难以支持对吸烟行为社会分层的深入探讨;3)置信区间(value_low和value_high)仅在部分年份与国家的记录中提供,削弱了时间序列和跨区域模型的统计推断能力。
常用场景
经典使用场景
该数据集聚焦于非洲地区最畅销卷烟品牌的价格指标(R_Price_mp_estimate),覆盖2008至2020年间47个非洲国家的观测数据。在公共卫生与烟草控制研究中,它常被用于构建面板数据模型,以分析烟草价格在不同国家、不同年份间的演变趋势。研究者可基于此数据集开展时间序列分析或横截面回归,探究烟草定价政策与消费行为之间的关联,为评估控烟措施的有效性提供量化依据。
实际应用
在实际应用中,该数据集赋能了世界卫生组织非洲区域办事处及各国卫生部的烟草监测工作。通过整合不同年份的价格波动数据,政策制定者可以评估现行烟草税率的合理性,并模拟调整税率后对卷烟终端价格的影响。此外,公共卫生机构可将其与其他健康指标(如吸烟率、烟草相关疾病负担)进行联合分析,识别出价格敏感型人群,从而设计更有针对性的干预策略。
衍生相关工作
该数据集作为Electric Sheep Africa统一数据仓库的重要组成部分,催生了一系列基于非洲健康数据的机器学习与统计建模工作。研究者利用其衍生出价格预测模型、区域聚类分析以及烟草消费的因果推断框架。典型相关成果包括结合多维社会经济学特征预测烟草价格走势的回归模型,以及揭示价格与吸烟行为非线性关系的非参数估计方法,这些工作进一步扩展了非洲公共健康数据的分析边界。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务