electricsheepafrica/africa-who-affordability-percentage-of-gdp-per-capita-required-to
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-affordability-percentage-of-gdp-per-capita-required-to
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2012年至2022年间,世界卫生组织全球健康观察指标Affordability - percentage of GDP per capita required to purchase 2000 cigarettes of the most sold brand(R_afford_gdp)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。该数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Affordability - percentage of GDP per capita required to purchase 2000 cigarettes of the most sold brand (R_afford_gdp) across African nations, spanning 2012–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集依托世界卫生组织全球卫生观察站OData API,系统采集了非洲47个国家2012至2022年间烟草可负担性指标数据,即购买最畅销品牌2000支香烟所需人均GDP百分比。原始数据经过规范化处理,统一以Parquet文件格式存储,确保数值字段采用浮点精度而非显示字符串,并尽可能包含置信区间上下限,形成结构化、机器学习就绪的数据集。
特点
数据集聚焦于非洲区域,共计264条观测记录,每一行代表特定国家与年份的唯一组合,无额外子维度分层。核心指标`R_afford_gdp`为连续型浮点数值,附带统计区间信息,便于不确定性分析。数据采用标准化的ISO国家代码与WHO区域标识,兼容跨数据集联合查询,体现了简洁且可扩展的设计理念。
使用方法
用户可通过HuggingFace `datasets`库以`load_dataset`方法直接加载,返回的表格数据结构便于转换为Pandas DataFrame进行后续分析。建议利用`dim1`字段过滤出双性别人群全性别数据以获得国家级别的整体估计;针对特定国家的时间序列研究,可基于`country_iso3`列筛选并结合`year`列排序,高效开展趋势建模与回归任务。
背景与挑战
背景概述
烟草消费的经济可负担性是全球公共卫生领域的重要议题,尤其在撒哈拉以南非洲地区,其与贫困、疾病负担及健康不平等密切相关。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并经Electric Sheep Africa团队重新整理发布,覆盖2012至2022年间47个非洲国家的观测数据。核心研究问题聚焦于衡量购买2000支最畅销品牌香烟所需的人均GDP百分比,以此量化烟草对居民的经济负担。作为少数聚焦非洲地区烟草可负担性的结构化数据集,它为政策制定者、经济学家和公共卫生研究者提供了关键纵向证据,支持烟草税、控烟政策及经济干预措施的实证分析,对推动非洲健康公平性研究具有显著贡献。
当前挑战
该数据集面临的领域挑战在于:烟草可负担性指标虽能反映经济压力,却难以单独解释烟草消费的复杂社会文化动因,如成瘾性、价格弹性差异及非法贸易影响,需结合其他社会经济变量进行多维分析。构建过程中的挑战包括:WHO原始数据存在国家间年份缺失和置信区间不完整的问题,264条记录中部分观测缺乏上下置信界(value_low/value_high),且不同国家数据更新时滞不一;此外,来自WHO AFRO区域的47国子集可能遗漏非成员国或数据不健全国家,引入样本选择偏倚,对机器学习模型的泛化能力构成限制。
常用场景
经典使用场景
该数据集源自世界卫生组织全球卫生观察站,记录了2012至2022年间47个非洲国家购买2000支最畅销品牌香烟所需的人均GDP百分比。作为衡量烟草可负担性的核心指标,它被广泛应用于跨国烟草经济负担研究,通过时间序列与横截面数据分析不同收入水平国家的烟草消费能力差异,为公共卫生政策制定提供量化依据。
解决学术问题
在学术领域,该数据集解决了烟草经济学中可负担性量化评估的难题,弥补了非洲地区缺乏统一、机器可读指标的空白。研究者可借此分析烟草税负对消费行为的长期影响,探究经济增长与烟草消费间的弹性关系,并为评估控烟政策有效性提供统计基准,揭示了非洲各国在烟草控制进程中的不均衡性。
衍生相关工作
该数据集衍生出多项经典研究:如整合WHO全球烟草流行监测数据构建预测模型,评估价格政策对非洲青少年吸烟率的影响;亦被用于计量经济学面板数据回归,验证烟草可负担性与肺癌发病率的相关性,或作为特征纳入机器学习框架,探究社会经济因素对烟草消费异质性的驱动机制。
以上内容由遇见数据集搜集并总结生成



