five

electricsheepafrica/africa-who-number-of-current-tobacco-smokers

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-current-tobacco-smokers
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“当前烟草吸烟者数量估计”(M_Est_smk_curr_users)在非洲国家的国家级观察数据,时间跨度为2000年至2030年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖40个非洲国家,总行数为1,320行,并包含多个子维度(如性别)。

This dataset contains country-level observations for the WHO GHO indicator "Number of current tobacco smokers, estimate" (`M_Est_smk_curr_users`) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 40 African nations with a total of 1,320 rows and includes multiple sub-dimensions (e.g., sex).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区当前吸烟者人数的估算。数据经过系统化提取与重构,以Parquet文件格式统一存储,并采用一致的字段架构。所有数值均源自高精度的浮点型字段NumericValue,而非显示字符串,同时纳入了置信区间上下界(value_low、value_high)以增强统计可靠性。数据集涵盖2000年至2030年期间40个非洲国家的1320条观测记录,仅筛选WHO AFRO区域(ParentLocationCode = 'AFR')的数据,确保地域聚焦性。当指标按性别或年龄等维度分层时,每个国家、年份与维度的唯一组合生成独立行,用户可通过dim1/dim2字段筛选特定层,或跨层聚合分析。
特点
该数据集具有多维度分层结构,支持按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)进行亚组分析,并预留了其他维度(如居住区域类型)的扩展接口。其核心特征在于提供统一的、即用型(ML-ready)非洲健康数据,整合了置信区间信息,适用于回归与分类任务。数据规模中等(1K<n<10K),覆盖40个非洲国家的长时间序列,便于进行跨国比较与趋势分析。字段设计清晰简洁,包含指示符代码、ISO国家代码、WHO区域、年份、数值估计及其置信区间、显示字符串、维度信息与更新时间戳,兼顾机器可读性与人类可解释性。
使用方法
数据集通过HuggingFace datasets库便捷加载,用户可一键转换为Pandas DataFrame进行后续分析。例如,使用`load_dataset('electricsheepafrica/africa-who-number-of-current-tobacco-smokers')`即可获取训练集。在用法上,可通过过滤dim1字段以'BTSX'结尾的行或检查其是否为NaN,提取两性全体的国家级数据;亦可按country_iso3字段筛选特定国家(如'KEN'表示肯尼亚),并按年份排序以绘制时间序列。此外,结合value_low与value_high字段,可构建不确定性区间回归模型,或利用分层维度进行子群体差异分析。数据许可为CC BY 4.0,允许自由使用与分发,仅需注明世界卫生组织原始来源。
背景与挑战
背景概述
烟草使用是全球可预防的主要健康风险之一,尤其在非洲地区,由于人口增长与烟草产业的市场扩张,吸烟相关疾病负担日益沉重。为精准监测这一公共卫生挑战,世界卫生组织(WHO)通过全球卫生观察站(GHO)系统收集并发布了“当前吸烟者数量(估计值)”指标(代码:M_Est_smk_curr_users)。该数据集由Electric Sheep Africa团队于2023年左右整理并托管于HuggingFace,覆盖2000至2030年间40个非洲国家的1,320条观测记录,并以统一架构和Parquet格式提供,便于机器学习直接调用。其核心研究问题聚焦于非洲区域烟草使用的时空分布与变化趋势,为流行病学研究、健康政策评估及疾病负担建模提供了关键的量化基础。该数据集已被纳入WHO AFRO区域监测体系,对全球控烟框架(如MPOWER策略)的效果评估具有重要支撑作用。
当前挑战
该数据集所解决的领域问题包括:1) 非洲大陆烟草使用精确估算的缺失——传统调查覆盖不足且不同国家报告口径不一,导致全球健康模型中非洲区域数据稀疏;2) 数据纵向对比困难——历史数据受限于抽样方法变更、年龄分组差异及城乡分层不明确,难以构建一致的长期趋势。在数据集构建过程中亦面临严峻挑战:1) WHO GHO API返回的原始字段包含数值与显示字符串,需严格清洗以提取浮点精度值,避免因四舍五入或格式化差异引入误差;2) 性别、地域等子维度(如SEX_BTSX、RURAL)的编码复杂,部分年份或国家缺乏完整分层数据,需通过规则推断或插补处理缺失维度;3) 置信区间(value_low/value_high)的完整性参差不齐,影响不确定性感知模型的训练与可靠预测范围界定。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织全球健康观察站关于非洲国家当前吸烟者人数的估算数据,覆盖2000年至2030年间40个国家的观测记录。在公共健康与流行病学研究中,它被广泛用于跨国家、跨时间段的烟草使用趋势分析。研究者可通过性别维度(男性、女性、两性合计)对数据进行分层挖掘,借助回归或分类模型预测吸烟人数的演变路径。该数据集为分析非洲大陆烟草流行格局、评估控烟政策干预效果提供了标准化的定量基础。
实际应用
在公共卫生规划与政策实践中,该数据集可服务于非洲各国卫生部门与国家控烟项目的目标设定与资源调配。基于年度估算值与置信区间,决策者能够识别吸烟率快速上升的高风险国家,进而优先部署干预措施。国际组织如WHO与非洲疾控中心可借助这些数据监测《烟草控制框架公约》的落实进展,评估广告禁令、税收提升与健康警示等策略的实际效果。该数据亦可与疾病负担、医疗支出等数据集联动,构建综合性的烟草经济影响评估系统。
衍生相关工作
该数据集的发布催生了一系列围绕非洲烟草流行的二次分析工作。研究者将其与WHO全球烟草监测系统的调查数据相结合,开展了比较不同数据源估算一致性及校准方法的研究。部分工作利用该时间序列数据集训练机器学习和深度学习模型(如LSTM与梯度提升机),以预测未来吸烟人数并识别关键驱动因素。另有学者将它与死亡率、肺癌发病率等健康结局指标关联,构建了烟草归因疾病负担的联合建模框架。这些衍生研究进一步拓展了原始数据在因果推断与预测预警中的应用边界。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务