five

electricsheepafrica/africa-who-estimate-of-current-cigarette-smoking-prevalence-cigcurrstd

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimate-of-current-cigarette-smoking-prevalence-cigcurrstd
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2030年间,世界卫生组织全球健康观察站(WHO GHO)关于当前吸烟率(年龄标准化)的估计数据。数据来源于WHO GHO OData API,并以Parquet文件格式重新打包。数据集还包括了置信区间边界、维度信息等。这是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator "Estimate of current cigarette smoking prevalence (%) (age-standardized)" (`M_Est_cig_curr_std`) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦非洲地区,收录了2000年至2030年间40个非洲国家关于当前卷烟吸烟率(年龄标准化)的国别观测数据。数据集以Parquet格式统一封装,采用一致的列式结构,所有数值均提取自API返回的浮点精度的`NumericValue`字段,而非显示字符串,并保留了可用的置信区间上下界,共计1320条记录。
特点
该数据集的核心特色在于其针对非洲区域的专题聚焦与机器学习友好性。它不仅提供了按性别(如男女合计、男性、女性)等维度进行分层的观测值,还清晰记录了每个数据点的维度类型与取值,便于用户按需筛选。数据覆盖长达30年的时间跨度,包含点估计与置信区间,为流行病学趋势分析与建模提供了高精度、结构化的基底。
使用方法
使用者可通过HuggingFace的`datasets`库直接加载该数据集,随后转换为Pandas DataFrame进行深入分析。例如,可依据`dim1`字段中的`SEX_BTSX`等后缀筛选特定性别的全国层面数据,或利用`country_iso3`与`year`列提取单个国家的时间序列。数据集以列式存储,支持快速过滤、聚合及回归或分类任务的输入特征构建。
背景与挑战
背景概述
吸烟是全球可预防死亡的首要原因之一,非洲地区由于烟草产业扩张与人口增长,烟草流行趋势正面临严峻挑战。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,收录了2000年至2030年间40个非洲国家年龄标准化后的当前吸烟率(百分比)观测值,由Electric Sheep Africa项目重新整理为机器学习友好的格式。核心研究问题聚焦于非洲大陆的烟草使用流行程度及其时空演变,旨在为公共卫生政策制定与流行病学建模提供标准化数据基础。该数据集通过统一Parquet格式、包含置信区间及维度分层(如性别、居住地类型),显著提升了非洲地区健康指标数据的可获取性与可复现性,对全球烟草控制研究、健康不平等分析及可持续发展目标监测具有重要支撑作用。
当前挑战
该数据集所解决的领域核心挑战在于非洲地区烟草流行数据的碎片化与不一致问题,由于各国统计能力与报告标准差异,以往跨国家、跨时间段的吸烟率比较常因数据缺失或定义不同而失真,此数据集通过标准化年龄标化率与分层维度提供了可比性。构建过程中也面临多重挑战:首先需要从WHO的OData API中解析并清理来自40个国家的混杂编码与缺失值;其次,部分数据仅有点估计而无置信区间,对于不确定性量化构成限制;此外,指标存在按性别、居住地类型等维度划分的亚组数据,如何在不破坏一致性的前提下确保用户可灵活筛选、聚合或推理不同层级的数据,也对数据集的结构设计提出了较高要求。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织全球健康观测站关于非洲各国2000至2030年年龄标准化当前吸烟率的权威数据,为流行病学与公共卫生研究提供了标准化的时空观测基础。经典使用场景集中于利用该数据集构建预测模型,以追踪非洲大陆烟草使用的时间演变趋势,并通过性别、城乡等亚组划分实现精细化的健康风险画像。研究者可基于置信区间进行不确定性建模,生成稳健的区域吸烟率估计,从而支撑跨国比较与健康政策的循证制定。
衍生相关工作
该数据集作为Electric Sheep Africa非洲统一数据仓库的重要组成部分,已催生多项下游衍生工作。研究人员基于此构建了非洲首个区域级吸烟风险预测基准模型,并拓展至与结核病、心血管疾病发病率的多病种联合分析;另有工作将其作为特征输入,训练用于估计二手烟暴露影响的因果推断模型。此外,该数据集常与WHO其他健康指标数据集(如酒精消费、肥胖率)联合使用,形成跨风险的非洲健康生态位图谱,支撑了多项发表于全球健康高影响力期刊的整合分析研究。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区年龄标准化后的当前卷烟吸烟流行率估算,为跨国烟草控制政策评估和健康流行病学建模提供了标准化、机器可读的数据基础。在公共卫生领域的前沿研究中,它常被用于构建时间序列预测模型,结合社会经济、教育水平及烟草税收等协变量,探究吸烟率的长期演变轨迹及其与慢性非传染性疾病负担的关联。此外,该数据还能支持性别分层分析,揭示不同性别的吸烟模式差异,为制定针对性干预措施提供循证依据。随着全球健康数据开放运动的推进,该数据集作为WHO全球卫生观察站与非洲区域数据的整合成果,对于强化区域卫生监测体系、推动实现可持续发展目标中与健康相关的具体指标具有重要价值。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务