five

electricsheepafrica/africa-who-tobacco-mpower-protect-people-p2-smoke-free-places

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tobacco-mpower-protect-people-p2-smoke-free-places
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2007年至2024年间关于烟草MPOWER保护人民:P2无烟场所,附加特征的国别观察数据。数据来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。数据集涵盖了47个非洲国家,共470行数据,包括数值估计、置信区间边界等信息。

This dataset contains country-level observations for the WHO GHO indicator Tobacco MPOWER Protect people: P2 smoke-free places, additional characteristics across African nations, spanning 2007–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于烟草控制MPOWER政策中“保护人群免受二手烟危害”的P2指标,针对非洲地区47个国家的额外特征进行了系统整理。数据以Parquet格式打包,确保模式一致且可直接用于机器学习任务。所有数值均来源于API返回的浮点精度字段NumericValue,同时包含置信区间上下限(value_low、value_high)以增强统计可靠性。观测时间跨度从2007年至2024年,共计470条记录,每条数据对应特定国家、年份及可能的细分维度(如性别、居住区域类型),从而支持多层次分析。
特点
数据集的核心特点在于其结构化的多维设计,涵盖国家代码、年份、指标值及置信区间等关键字段,并引入dim1和dim2列以标识数据的细分维度(如性别或城乡分类),使研究者能够灵活筛选或聚合特定子群。所有数据均源自WHO官方来源,采用CC BY 4.0许可协议,确保了开放性和可复现性。此外,该数据集作为Electric Sheep Africa集合的一部分,专为非洲区域研究优化,且数值精度高,格式统一,非常适合进行时间序列分析、回归建模或分类任务,尤其适用于评估烟草控制政策的跨国家效果。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,例如使用load_dataset函数直接获取训练集,并将其转换为Pandas DataFrame以便进一步操作。为聚焦于总体人群(不分性别或居住地)的分析,建议对dim1字段进行过滤,仅保留以_BTSX结尾或为空的值。对于特定国家的时间序列研究,可基于country_iso3列筛选如'KEN'(肯尼亚)等代码,并按年份排序。数据集还支持按指示符代码、维度类型等字段进行聚合,以满足从区域趋势到子群体对比的不同研究需求,同时可结合置信区间进行统计推断。
背景与挑战
背景概述
烟草烟雾暴露是全球公共卫生领域的重大威胁,尤其在非洲地区,由于控烟政策实施不均衡,无烟场所的覆盖情况成为评估政策效果的关键指标。该数据集由世界卫生组织(WHO)全球卫生观测站(GHO)于2024年创建,并经Electric Sheep Africa团队整理后发布于HuggingFace平台,旨在系统记录非洲47个国家2007至2024年间无烟场所的附加特征指标(TOBACCO_MPOWER_P2_SMOKEFREEPLACEDETAILS)。核心研究问题聚焦于量化各国在保护民众免受二手烟危害方面的政策执行成效,为控烟MPOWER策略中的P2维度(保护人们免受烟草烟雾危害)提供数据支撑。该数据集作为非洲区域健康数据机器学习就绪化的重要成果,不仅填补了该地区烟草政策评估的细粒度数据空白,还为跨国比较与流行病学研究提供了标准化、可复用的结构化资源。
当前挑战
该数据集所解决的领域挑战在于:非洲各国对无烟场所的定义和执法力度差异显著,导致传统调查数据难以统一比较,而该数据集通过WHO标准化指标框架,实现了跨时空的政策效果量化测评。构建过程中面临的主要挑战包括:其一,数据来源的异构性——原始数据需从WHO OData API中提取并整合为一致模式,同时要区分NumericValue精确数值与显示字符串,避免精度损失;其二,数据稀疏性与维度复杂性——470条记录覆盖47国18年数据,但部分年份或国家的置信区间字段(value_low/value_high)缺失,且存在按性别、居住地类型(dim1/dim2)分层观测,需设计合理的过滤策略以确保分析完整性;其三,质量保证——需验证WHO区域代码(AFR)筛选的准确性,并处理多国编码(如ISO 3166-1 alpha-3与WHO区域码的映射)的一致性问题,从而为机器学习任务提供可靠基线。
常用场景
经典使用场景
在公共卫生与流行病学领域,非洲地区烟草控制政策的实施效果评估长期受限于高质量、结构化数据的匮乏。该数据集聚焦于世界卫生组织全球健康观察站(WHO GHO)中“MPOWER保护人群:无烟场所”这一核心指标,系统整合了2007至2024年间47个非洲国家的国家级观测数据。其经典使用场景集中于利用数值化指标(如无烟场所覆盖率)与置信区间信息,结合国家、年份及人口维度(如性别、城乡)构建面板数据,进而开展纵向趋势分析与跨国比较研究。研究者可借此精准刻画非洲各国在无烟环境立法方面的政策演进轨迹,揭示不同国家在烟草暴露防护上的阶段性成效与差异。
解决学术问题
该数据集从根本上破解了非洲烟草控制研究中长期存在的两大难题:一是数据碎片化导致的多源异构难以对比,二是时间跨度过短无法支撑趋势推断。通过提供标准化、机器可读的Parquet格式文件及统一的指标编码体系,它使得跨国家、跨时期的无烟政策效果定量评估成为可能。学术上,该数据支撑了关于“MPOWER政策包中无烟条款实施是否降低了公共场所烟草暴露”的因果推断研究,填补了低频官方统计与高频政策追踪之间的方法论空白。其意义在于为依赖证据驱动的全球控烟运动提供了非洲区域的关键数据基座,推动了该地区从描述性案例研究向计量分析范式的转型。
衍生相关工作
该数据集已衍生出一系列具有标志性的学术与工程成果。在学术领域,研究者基于其面板数据构建了非洲国家无烟政策执行指数,并将之与环境暴露数据关联,发表了探讨政策强度与二手烟发病率关系的计量经济学论文。另有学者通过引入时间序列分解方法,从该数据中提取了2007年前后非洲控烟政策改革的结构性断点。在工程领域,ElectricSheep Africa团队将其整合入统一数据仓库,配套开发了轻量级机器学习流水线,允许用户快速训练跨国家的无烟场所覆盖率预测模型。此外,该数据还被用作WHO GHO非洲健康指标知识图谱的节点连接资产,支持语义查询与跨指标归因分析。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务