electricsheepafrica/africa-who-prevalence-of-current-smokeless-tobacco-use-among
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-current-smokeless-tobacco-use-among
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标青少年当前使用无烟烟草的流行率(%)(`Yth_curr_smokeless`)在非洲国家的国家级观测数据,时间跨度为2008年至2020年。数据集是Electric Sheep Africa系列的一部分,这是一个统一、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集覆盖33个非洲国家,总行数为99行,并可按性别等维度进行分层分析。
This dataset contains country-level observations for the WHO GHO indicator Prevalence of current smokeless tobacco use among adolescents (%) (`Yth_curr_smokeless`) across African nations, spanning 2008–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 33 African nations with a total of 99 rows and can be stratified by dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲青少年人群中当前无烟烟草使用的流行率(%)。数据以国家为观察单位,涵盖2008年至2020年间33个非洲国家的99条记录,均来自WHO AFRO区域。原始数据经过系统化重封装,提取浮点精度的数值字段作为核心指标,并完整保留了置信区间边界值。所有观测值均按国家、年份及可能的性别或居住地类型等子维度进行结构化组织,最终以Parquet格式存储,确保一致的列式架构与机器学习就绪的标准化处理。
特点
数据集的核心特色在于其精细的多维分层设计。每个观测值可依据性别(如男女总体、男性、女性)或居住地类型进行细分,形成了国家×年份×维度的唯一组合。这种结构允许研究者灵活地抽取全局总率或特定亚群数据,支持从宏观趋势到微观差异的多粒度分析。包含的置信区间字段进一步增强了数据在统计建模中的实用性与可靠性。全部99条观测值虽规模精炼,却完整覆盖了非洲大陆的广泛地域,为区域性健康指标监测提供了稀缺而宝贵的标准化资源。
使用方法
数据集可通过Hugging Face的datasets库便捷加载,调用`load_dataset`函数即可获取训练集并转换为Pandas DataFrame进行后续分析。使用者可以基于`dim1`字段过滤出性别总体的国家级数据,或通过`country_iso3`字段提取特定国家的时间序列进行纵向分析。数据列包括标准化的国家代码、年份、数值估计及其置信区间,辅以子维度类型与值,适合用于分类或回归任务中的机器学习建模,以及人群健康指标的描述性统计与可视化研究。
背景与挑战
背景概述
非洲青少年群体中无烟烟草制品的流行已成为全球公共卫生领域日益关注的重要议题。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期系统监测各国健康指标,其中‘Yth_curr_smokeless’指标专门用于评估青少年当前使用无烟烟草的比例。该数据集由Electric Sheep Africa团队于2020年整理发布,覆盖33个非洲国家、2008至2020年间99条观测记录,旨在为机器学习驱动的健康政策研究提供标准化、可复用的结构化数据。数据集依托WHO授权的开放数据接口构建,包含按性别和地区等维度分层的估计值与置信区间,为分析非洲地区无烟烟草使用的地域分布、性别差异及时间演化趋势奠定了关键的数据基础,对促进非洲区域控烟干预策略的精准制定具有显著推动作用。
当前挑战
该数据集所解决的领域问题核心在于应对非洲青少年无烟烟草使用监测中数据稀疏性、异构性和可比较性不足的挑战。由于各国统计能力与报告周期参差不齐,原始数据往往存在缺失值多、时间序列不连续、维度划分不一致等问题,严重制约了跨国家、跨年份的横向对比与纵向趋势建模。在构建过程中,主要挑战包括:从WHO GHO API中自动化抽取并清洗异构格式的指标数据,确保不同国家和年份的‘NumericValue’字段在统一精度下对齐;处理按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度分层后出现的重复记录与冗余字段,同时保留置信区间信息以支持不确定性量化;以及将分散的CSV或JSON来源整合为Parquet格式的机器学习就绪数据集,并设计一致的列命名规范与数据字典,从而显著降低研究人员在数据预处理中的重复劳动与出错风险。
常用场景
经典使用场景
该数据集汇集了非洲33个国家在2008至2020年间青少年无烟烟草使用流行率的官方统计,其经典用途在于构建多维度、跨年度的纵向分析框架。研究者常以'country_iso3'和'year'为索引,获取分性别(男性、女性及总体)的精确数值,用以追踪特定国家或区域层面青少年烟草消费的动态演变。借助置信区间字段,还可评估估计值的稳健性,适用于描述性流行病学统计与趋势比较。
实际应用
实际应用层面,这一数据集对非洲公共卫生机构的决策支持尤为关键。它可被整合进WHO全球健康观测站的分析管道,辅助各国卫生部评估青少年烟草控制项目的达标进展,并定位高风险人群以优化资源分配。数据集的机器学习友好格式使其能直接服务于预测模型(如未来流行率推演),或与教育程度、医疗服务可及性等变量交叉分析,从而为设计因地制宜的控烟宣传与干预方案提供量化依据。
衍生相关工作
该数据集的衍生工作常体现为非洲区域健康指标标准化整合的范式。基于其统一的Parquet结构与字段体系,后续涌现出多项关于非洲青少年健康风险行为的多指标联合分析,例如将无烟烟草数据与饮酒、肥胖等议题的WHO指标拼接,探索行为集群模式。此外,它启发了面向低资源地区的时空插值算法研究,用以弥补部分国家年度观测缺失的问题,进而推动非洲大陆健康数据科学的基础设施建设与开放科学运动。
以上内容由遇见数据集搜集并总结生成



