electricsheepafrica/africa-who-how-many-health-warnings-are-approved-by-the-law-for-6numberhwa
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-how-many-health-warnings-are-approved-by-the-law-for-6numberhwa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家关于世界卫生组织全球健康观察站(WHO GHO)指标“香烟包装上法律批准的健康警告数量”(`W16_number_hw_A`)的国家级观察数据,时间跨度为2007年至2022年。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "How many health warnings are approved by the law for cigarette packaging?" (`W16_number_hw_A`) across African nations, spanning 2007–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,聚焦于非洲地区法律批准卷烟包装健康警告数量的指标(代码W16_number_hw_A)。数据经过系统化抽取与整合,将原始API中的NumericValue字段作为精确数值,并辅以置信区间上下限(value_low与value_high)供严谨分析之用。依托Electric Sheep Africa项目的统一处理框架,数据被重构为Parquet格式,形成具有一致列式模式的机器学习就绪数据集,涵盖2007年至2022年间32个非洲国家的245条观测记录,所有条目均限定于WHO非洲区域(AFR)范围内。
特点
该数据集以简洁而高度标准化为特色,每个国家-年份组合仅对应单一数值,避免了分层维度的复杂干扰,便于直接用于回归或分类建模。其核心特点在于提供精确的浮点型点估计值作为主要目标变量,同时附带置信区间信息,为不确定性评估留出空间。数据集明确标注了WHO区域代码、ISO国家代码和观测年份,并保留原始显示字符串(value_display)以便核查,结构透明且易于过滤,例如可通过dim1字段筛选不同性别或城乡亚组的子集。
使用方法
在使用时,可通过HuggingFace Datasets库直接加载:load_dataset("electricsheepafrica/africa-who-how-many-health-warnings-are-approved-by-the-law-for-6numberhwa"),调用后返回的数据集包含训练集(train)拆分,可轻松转换为Pandas DataFrame进行后续分析。若需聚焦全国层面的两性综合数据,可通过筛选dim1字段为空或末尾为“_BTSX”的行来实现;而针对特定国家的时序分析,则按ISO3代码过滤后依年份排序。这种设计使得时间序列预测、跨国比较或公共卫生政策评估等任务皆可便捷开展。
背景与挑战
背景概述
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO),由Electric Sheep Africa团队于2022年整理发布,聚焦非洲地区法律批准的香烟包装健康警示数量这一关键公共卫生指标(W16_number_hw_A)。研究核心在于量化非洲国家烟草控制政策的执行力度,通过收集2007年至2022年间32个非洲国家的面板数据,为评估《世界卫生组织烟草控制框架公约》实施效果提供数据支撑。作为首个统一格式的非洲烟草政策机器学习数据集,它填补了该区域健康政策量化研究的空白,为跨境比较、时间序列建模及政策效应分析奠定了坚实基础,对推动全球烟草防控研究具有重要参考价值。
当前挑战
该数据集面临的核心领域挑战在于非洲各国烟草健康警示政策的执行差异极大,部分国家法律规定的警示数量虽多,但实际执法力度不足,导致数据与真实情况脱节。此外,构建过程中遭遇多重障碍:WHO原始数据存在大量缺失值,32个国家中仅约半数提供完整时间序列;数据口径不一,部分国家仅报告总体数量而未区分性别或城乡维度;非洲区域数据更新滞后,最新观测值仅到2022年,难以反映近年政策变化;同时,Parquet格式的标准化处理虽提升机器可读性,但原始API返回的置信区间(value_low/value_high)大量为空,削弱了统计建模的可靠性。
常用场景
经典使用场景
在公共卫生与烟草控制交叉领域,研究者常利用该数据集监测非洲各国法律批准卷烟包装健康警告数量的时空演变。通过整合WHO全球卫生观察站三十余国横跨十五年的指标数据,学者可构建面板数据模型,量化分析不同国家在健康警告政策实施力度上的差异,并评估其随时间的动态调整。该数据集为探索政策强度与相关健康结局之间的关联提供了标准化的量化基础。
解决学术问题
该数据集有效回应了非洲地区烟草控制政策量化研究中的数据匮乏挑战。学术上,它解决了如何客观衡量各国控烟法律中健康警告要素完备程度这一难题,使得研究者得以超越零散的定性描述,开展严谨的跨国产出比较。其价值在于填补了撒哈拉以南非洲区域级政策指标统一记录的空缺,为理解法律文本与公共卫生实践之间的鸿沟提供了可计量的实证起点。
衍生相关工作
该数据集启发了多个类别的衍生工作。一方面,它被整合进更大的非洲卫生政策基准库,支撑机器学习模型对控烟立法趋势的预测。另一方面,它与其他WHO GHO指标(如烟草税率或吸烟率)结合,衍生出分析政策组合效果的计量经济学研究。此外,基于该数据集的时序特征,部分工作探索了利用自编码器识别政策突变点,为异常年份的立法变动提供自动检测方法。
以上内容由遇见数据集搜集并总结生成



