five

electricsheepafrica/africa-who-prevalence-of-current-cigarette-smoking-among-adolescents

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-current-cigarette-smoking-among-adolescents
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家世界卫生组织全球健康观察站(WHO GHO)指标“青少年当前吸烟率(%)”(`Yth_curr_cig_smoking`)的国家级观测数据,时间跨度为2003年至2020年。数据来源于WHO GHO的OData API,并重新打包为Parquet文件,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集覆盖44个非洲国家,总行数为132行,并按性别等子维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator "Prevalence of current cigarette smoking among adolescents (%)" (`Yth_curr_cig_smoking`) across African nations, spanning 2003–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 44 African nations with a total of 132 rows and is stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,聚焦于非洲地区青少年当前吸烟流行率这一关键健康指标(Yth_curr_cig_smoking)。原始数据经过系统化抽取与重构,以Parquet格式存储,并采用一致的字段架构进行封装。所有数值均取自浮动精度字段NumericValue,而非显示字符串,确保了数值的精确性。数据集还纳入了置信区间上下限(value_low, value_high),提升了统计信息的完整性。该构建流程旨在为机器学习任务提供即用型、标准化的非洲健康数据集。
特点
此数据集涵盖2003至2020年间44个非洲国家的132条观测记录,空间上聚焦于WHO非洲区域(AFRO),具有明确的区域代表性。数据按性别维度进行分层(性别总合、男性、女性),每条记录对应国家、年份与维度的唯一组合,便于按亚组筛选或聚合。除核心的点估计值外,还提供置信区间数据,增强了统计严谨性。整体上,数据集以简洁规范的结构、较少的样本量突出其针对性与可操作性,适合探索性分析与预测建模。
使用方法
研究者可通过HuggingFace的datasets库便捷加载数据,利用`load_dataset`函数直接获取训练集,并转换为Pandas DataFrame进行后续处理。如需分析全国总和水平,可筛选dim1字段为SEX_BTSX或为空的行。对于特定国家的时间序列分析,可按国别ISO代码(如KEN)过滤并依年份排序。数据集支持分类与回归任务,用户可根据研究需要选择`value_numeric`作为目标变量,并利用`value_low`与`value_high`进行不确定性量化。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)编制,经Electric Sheep Africa团队整理并发布在HuggingFace上,时间跨度为2003年至2020年,聚焦于非洲44个国家的青少年当前卷烟吸烟率(Yth_curr_cig_smoking)。青少年吸烟是公共卫生领域的重大关切,尤其在非洲,伴随经济转型和烟草营销渗透,年轻群体的烟草使用呈上升趋势。该指标以百分比形式呈现,并包含性别和居住地类型等亚维度分层信息,为探究非洲国家青少年烟草流行态势、制定针对性干预策略提供了关键的量化数据基础。数据集采用统一且机器学习友好的Parquet格式,显著便利了跨区域比较与模型训练,推动了非洲健康数据的开放与再利用。
当前挑战
该数据集所解决的领域挑战在于量化非洲青少年烟草使用的流行程度,以填补该区域在青少年行为健康监测方面的数据空白,从而支持WHO《烟草控制框架公约》的实施效果评估。构建过程中面临的挑战包括:数据来源覆盖44个国家,各国数据收集标准、时间间隔及报告质量参差不齐,导致原始值存在缺失和置信区间信息不完整;跨维度的枚举值(如性别、居住地类型)的命名方式不统一,需人工筛选以提取特定分层的统计结果;此外,样本总量仅132条,属于小样本范畴,可能限制了模型泛化能力与统计推断的稳健性。
常用场景
经典使用场景
该数据集的核心用途在于追踪非洲青少年群体中当前卷烟吸烟率的时空演变规律。凭借其涵盖44个非洲国家、横跨2003年至2020年的纵向观测值,研究者能够利用该数据集构建国家层面的趋势分析模型,揭示特定性别、居住地类型等亚维度下的吸烟行为差异。其结构化的指标代码与一致的数据模式为机器学习预处理提供了便利,尤其适用于时间序列预测、分类任务或回归建模,以量化青少年烟草使用在不同社会经济发展阶段的波动特征。
实际应用
在实际应用层面,该数据集为公共卫生政策的循证决策与实时评估提供了量化支撑。各国卫生部门与跨国组织可借助其年际变化规律,精准识别控烟干预的高优先区域和脆弱亚群,例如女性青少年或农村群体中吸烟率的意外上升。此外,该数据可无缝集成至健康监测仪表板或预警系统中,用于动态追踪可持续发展目标相关指标的达成进度,从而优化有限资源的配置策略,提升区域健康治理的效能。
衍生相关工作
围绕此数据集已衍生出一系列促进非洲数据科学发展的基础性工作。最核心的贡献在于其作为Electric Sheep Africa集合的一部分,确立了统一、机器学习友好的非洲健康数据标准,推动了跨数据集的联合分析与迁移学习应用。类似的,研究者可借鉴其数据清洗与模式化框架,将同类WHO GHO指标如饮酒、肥胖率进行整合,构建更广阔的非传染性疾病风险预测体系,从而催生出针对非洲青少年健康的多维度综合性分析生态。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务