electricsheepafrica/africa-who-tobacco-warning-w2c-smokeless-tobacco-packaging-health
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tobacco-warning-w2c-smokeless-tobacco-packaging-health
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家关于WHO GHO指标烟草警告:W2c无烟烟草包装健康警告及其他特征的国家级观察数据,时间跨度为2007年至2024年。数据来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Tobacco Warning: W2c smokeless tobacco packaging health warnings, other characteristics across African nations, spanning 2007–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲地区无烟烟草包装健康警示的监测指标(TOBACCO_MPOWER_W2C_TOBACCOSMOKELESS)。数据经由官方OData API直接获取,并统一转换为Parquet格式进行存储,确保了结构化的一致性与机器学习的友好性。所有数值均采用浮点精度的NumericValue字段,同时包含可用的置信区间上下界,覆盖2007年至2024年间29个非洲国家的213条观测记录。
特点
数据集的核心特点在于其高度结构化的分层设计,包含国家、年份、指标代码及多种维度划分(如性别、居住地类型),每个国家与年份的组合可对应多个细分维度行,便于进行多角度分析。此外,数据提供了精确的数值估计与显示字符串,并保留了WHO数据的原始更新时间戳,确保了信息的时效性与可追溯性。所有内容均依据CC BY 4.0许可协议开放,符合科学研究的共享精神。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,例如使用`load_dataset`函数直接获取训练集并转换为Pandas DataFrame。针对具体分析需求,可根据维度字段(如dim1)过滤出特定人群(如两性综合)或国家(如肯尼亚)的子集,并按年份排序以构建时间序列。该数据集适用于分类或回归任务,可作为非洲地区烟草控制政策评估与健康预警研究的可靠数据基础。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据整理而成,聚焦于非洲地区无烟烟草包装健康警告及其他特征的监测指标(TOBACCO_MPOWER_W2C_TOBACCOSMOKELESS)。无烟烟草作为一种被广泛忽视的健康威胁,在非洲地区尤为突出,其包装上的健康警告设计直接关系到控烟政策的有效性。该数据集覆盖2007至2024年间29个非洲国家的213条观测记录,收录了国家层面的点估计值及其置信区间,并细分了性别、居住地区等亚维度信息。作为首个统一格式、可直接用于机器学习的非洲烟草政策数据集,它为研究人员评估MPOWER框架中‘警告’策略的实施效果提供了标准化数据基础,推动了全球控烟研究在区域层面的深化。
当前挑战
该数据集面临的核心挑战之一在于其关注的领域问题:无烟烟草包装健康警告的有效性评估长期滞后于卷烟产品,非洲国家间政策执行差异巨大,缺乏统一的衡量标准,导致数据可比性不足。此外,构建过程中存在显著困难,包括:原始数据来源分散于WHO GHO的OData API,需跨年份、跨国别手工整合;部分国家的观测数据稀疏,2007至2024年间仅记录少数年份,时间序列不完整;置信区间字段缺失率高,增加了统计推断的不确定性;维度的分层结构(如性别、城乡划分)在各国定义不一致,需进行标准化清洗。这些挑战限制了数据在高级建模中的直接应用,但亦凸显了其在推动非洲控烟政策循证研究中的重要价值。
常用场景
经典使用场景
在公共卫生与政策评估领域,该数据集主要用于分析非洲国家无烟烟草包装健康警示的合规特征与趋势演变。通过整合29个国家2007至2024年的观测数据,研究者可构建面板数据模型,评估不同警示形式(如图片与文字组合)对公众认知的影响,或借助机器学习算法识别政策执行薄弱地区。其结构化的`value_numeric`字段与置信区间列,为时空对比和统计推断提供了可靠基础。
解决学术问题
该数据集精准回应了烟草控制研究中数据碎片化的长期痛点,首次以统一格式呈现非洲区域无烟烟草包装警示的跨国定量信息。它使学者得以量化《世界卫生组织烟草控制框架公约》在非洲的落地效果,揭示低警示覆盖率与公共卫生投入之间的关联,从而为优化MPOWER策略提供证据支持。其分层维度(如城乡、性别)更助力探索健康不平等的社会决定因素。
衍生相关工作
该数据集衍生出多项代表性工作:一是基于时间序列聚类分析,识别非洲国家警示政策变革的阶段性模式;二是结合社会经济指标构建因果推断模型,探讨包装警示与吸烟率下降的量化关系;三是开发面向公共卫生的可解释分类器,预测各国下一轮政策升级概率。此外,其与WHO其他GHO指标的联合分析,催生了整合多维度烟草控制指数的研究框架。
以上内容由遇见数据集搜集并总结生成



