five

electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-import

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-most-sold-brand-of-cigarettes-taxes-as-a-of-price-import
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标销售最多的香烟品牌 - 税收占价格的比例 - 进口关税(R_imp_duty_estimate)在非洲国家的国家级观察数据,时间跨度为2008年至2020年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Most sold brand of cigarettes - taxes as a % of price - import duties" (`R_imp_duty_estimate`) across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲地区最畅销卷烟品牌中进口关税占价格百分比的指标(R_imp_duty_estimate)。数据经由OData API采集后,被重新封装为统一Schema的Parquet文件,保留浮点精度的数值字段(NumericValue)作为核心观测值,同时纳入置信区间上下界。数据集覆盖2008至2020年间的47个非洲国家,共计310条记录,且仅筛选WHO AFRO区域(ParentLocationCode为AFR)的数据,确保地理聚焦的严格性。
特点
数据集具备高度结构化与机器学习就绪的特性,其Schema包含indicator_code、country_iso3、year、value_numeric等关键字段,并附带value_low与value_high置信区间,便于不确定性建模。每条记录对应单一国家-年份组合,无子维度分层,简化了分析复杂度。此外,数据以Parquet格式存储,兼容现代数据科学生态系统,且提供WHO数据更新的时间戳字段(last_updated),保障了数据的时效性与可追溯性。
使用方法
用户可通过HuggingFace Datasets库的load_dataset函数直接加载数据集,返回的DataFrame中包含完整的数值与元数据字段。进行时间序列分析时,可依据country_iso3字段筛选特定国家并按year排序;若需关注全国层面的两性综合数据,可过滤dim1字段为空或包含_BTSX后缀的行。该数据集适用于回归任务,预测烟草税负对价格的影响,或作为非洲健康政策研究的特征工程基础。
背景与挑战
背景概述
烟草控制是全球公共卫生领域的重大议题,其税收政策被视为减少烟草消费的有效工具。世界卫生组织(WHO)全球健康观察站(GHO)自2008年起系统收集烟草相关指标,其中“最畅销卷烟品牌中进口税占价格百分比”为评估各国税收杠杆效能提供了关键数据。该数据集由Electric Sheep Africa团队于2023年整理并发布在HuggingFace平台,聚焦47个非洲国家2008至2020年的面板观测值,总计310条记录。它填补了非洲大陆在烟草税政策量化研究中的数据空白,为流行病学家、卫生经济学家及政策制定者提供了标准化、机器学习就绪的跨国产出,推动了区域健康不平等与税收有效性分析的实证研究。
当前挑战
该数据集主要应对两大挑战。其一,非洲各国烟草税政策效果长期缺乏一致、可比的量化评估,现有研究多依赖分散的政府报告或小规模调查,难以支撑跨国的机器学习建模;该指标以统一标准衡量进口税对卷烟价格的贡献比例,有助于揭示税率差异与健康结局之间的关联。其二,构建过程中面临数据稀疏性与质量不均衡问题:47国13年数据仅310条记录,意味着许多国家存在缺失年份,且置信区间缺失值进一步限制了精确度。此外,原始WHO API数据需经标准化清洗(如提取浮点值而非显示字符串)并转化为Parquet格式,处理了字段异构与多维度分层(如性别、城乡)带来的聚合复杂性,以确保分析的一致性与可复现性。
常用场景
经典使用场景
该数据集汇聚了2008至2020年间47个非洲国家最畅销卷烟品牌的进口关税占价格百分比数据,为研究烟草税政策对健康经济的影响提供了宝贵的时间序列资源。经典的用法是将其作为面板数据,用于构建回归模型或分类任务,以分析不同国家和年份间烟草税负水平的差异及其演变趋势。研究者可通过清洗后的数值型指标直接开展机器学习和统计推断,例如预测关税占比与政府控烟成效之间的关联。
实际应用
在实际应用中,该数据集为政府和非营利组织制定烟草税政策提供了可量化的决策依据。公共卫生机构可利用其中关税占比的变化趋势,判断现有进口税制对提高卷烟价格的传导效率,进而优化税率设计以减少吸烟率。此外,经济政策制定者能结合这些数据评估关税调整对财政收入的潜在影响,在健康目标与贸易利益之间寻求平衡,实现更有针对性的控烟干预策略。
衍生相关工作
该数据集衍生了一系列聚焦非洲烟草税效果的经典工作,包括时间序列预测模型(如ARIMA或LSTM)用于推测未来关税占比变化,以及基于聚类分析识别税收政策相似的国家群组。部分研究将其与WHO其他健康指标数据联合,构建综合性面板数据库,以刻画烟草税与心血管疾病、肺癌发病率之间的长期动态关系。这类工作进一步推动了开放数据运动,激励了更多针对发展中地区政策工具效果的因果推断研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务