electricsheepafrica/africa-who-how-many-health-warnings-are-approved-by-the-law-for-other
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-how-many-health-warnings-are-approved-by-the-law-for-other
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2007年至2022年间关于其他吸烟烟草包装上法律批准的卫生警告数量的WHO GHO指标(`W16_number_hw_B`)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "How many health warnings are approved by the law for other smoked tobacco packaging?" (`W16_number_hw_B`) across African nations, spanning 2007–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)的OData API,聚焦于非洲地区法律批准的其他 smoked 烟草包装健康警示数量这一专项指标(代码W16_number_hw_B)。原始数据经过系统化的清洗与重构,以Parquet格式封装,并统一采用标准化模式。所有数值均取自高精度的浮点字段NumericValue,而非展示字符串,确保了数据一致性。同时,数据集保留了置信区间上下限值,以便于后续的统计分析。
特点
该数据集覆盖了2007年至2022年间30个非洲国家的209条观测记录,所有数据均限定于WHO非洲区域。其独特之处在于作为一个无子维度的单一值指标,每个国家-年份组合仅对应一个数值,极大简化了分析复杂度。数据集包含丰富的字段,如指标代码、国家ISO代码、年份、数值点估计及置信区间,且均以结构化表格形式呈现,为机器学习任务提供了清晰、直接的目标变量与特征空间。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用`load_dataset`函数即可获取训练集。加载后,利用`to_pandas()`方法转换为Pandas DataFrame以便于操作。为聚焦于国家层面的总体情况,可过滤出维度值为`_BTSX`或缺失值的行;若需进行时间序列分析,可依据国家代码筛选特定国家数据并按年份排序。整个加载与预处理流程简洁高效,适合直接用于分类或回归等机器学习建模任务。
背景与挑战
背景概述
在全球公共卫生治理的宏大叙事中,烟草控制始终是国际社会聚焦的核心议题之一,其中健康警示标识作为降低烟草消费的有效干预手段,其立法批准数量成为衡量各国控烟政策力度的关键指标。由世界卫生组织全球卫生观察站主导,经由Electric Sheep Africa团队整理重组的非洲地区烟草包装健康警示数据集(africa-who-how-many-health-warnings-are-approved-by-the-law-for-other),于2022年正式发布,涵盖了2007年至2022年间30个非洲国家的横截面时序数据。该数据集以机器可读的Parquet格式呈现,旨在弥合全球健康数据与机器学习应用之间的鸿沟,为非洲大陆的控烟法规成效评估及跨区域比较研究提供了标准化的数据基石,显著推动了数据驱动的公共卫生政策分析范式。
当前挑战
该数据集所面对的领域挑战根植于非洲公共卫生系统数据采集的碎片化与不均衡性。一方面,核心研究问题在于量化各国对‘非卷烟类烟草制品’(如雪茄、水烟等)实施健康警示的法律要求数量,然而这类产品定义模糊、各国监管口径不一,导致跨国家可比性面临严峻考验。另一方面,构建过程中遭遇了显著的技术与数据挑战:原始WHO数据依赖各国政府自报,存在时间序列不连续、部分年份缺失值高达30%的现象;同时,数据集的精简规模(仅209条记录)意味着在训练稳健的机器学习模型时,需谨慎处理小样本条件下的过拟合与泛化不足问题,且置信区间字段的缺失进一步限制了估计精度,要求研究者采用贝叶斯推断或迁移学习等先进统计方法进行补偿性分析。
常用场景
经典使用场景
该数据集聚焦于非洲各国法律批准的除卷烟外其他 smoked tobacco 产品包装健康警示数量(W16_number_hw_B),覆盖2007至2022年间30个非洲国家的观察值。在公共卫生与烟草控制研究中,它被广泛应用于跨国比较分析,用以量化非洲大陆在《世界卫生组织烟草控制框架公约》执行背景下,各国控烟立法中健康警示政策的覆盖强度与演进趋势。研究者可借助此数据进行时间序列建模,揭示不同国家在警示数量上的立法差异、随时间的变化轨迹及其与烟草流行率之间的潜在关联。
衍生相关工作
围绕该数据集,领域内已衍生出一系列经典研究工作。在学术层面,它常被整合至跨国面板数据集中,用于估计健康警示数量与烟草使用率之间的因果效应,其中工具变量法和双重差分模型是常见的分析范式。此外,相关研究将其与烟草包装图形警示面积、警示语更新频率等指标结合,构建综合性的控烟政策严格度指数。在数据科学社区,该数据集也成为非洲机器学习基准测试的一部分,用于训练预测模型,推演不同立法假设下烟草危害警示覆盖率的演进路径,进而指导前瞻性政策模拟。
数据集最近研究
最新研究方向
该数据集聚焦于非洲各国在烟草包装上依法批准的健康警告数量,是WHO全球健康观察(GHO)框架下的关键指标。近期研究前沿将这一数据与非洲控烟政策效力评估、公共卫生法规实施差距分析相结合,尤其在《世界卫生组织烟草控制框架公约》履约背景下,通过量化各国健康警告的法定数量,揭示法律文本与实际执行之间的鸿沟。该数据集为机器学习模型提供了标准化的时间序列特征,支持跨国的面板数据分析,助力识别政策强度与吸烟率、烟草相关疾病负担的关联模式,对于优化非洲地区控烟立法、促进健康公平具有深远意义。
以上内容由遇见数据集搜集并总结生成



