five

electricsheepafrica/africa-who-estimate-of-current-tobacco-smoking-prevalence-estsmkcurr

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimate-of-current-tobacco-smoking-prevalence-estsmkcurr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“当前烟草吸烟流行率估计(%)”(`M_Est_smk_curr`)在非洲国家的国家层面观察数据,时间跨度为2000年至2030年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察站OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Estimate of current tobacco smoking prevalence (%)" (`M_Est_smk_curr`) across African nations, spanning 2000–2030. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,经由Electric Sheep Africa项目重新封装,形成了面向机器学习场景的标准化Parquet文件。数据涵盖了2000年至2030年非洲40个国家的烟草吸烟率估计值,共计1320条记录,所有数值均采用浮点精度的`NumericValue`字段,并附带了置信区间上下界(`value_low`和`value_high`)以辅助统计分析。数据集严格筛选了WHO AFRO区域(非洲区域)的国家,确保了地理维度的聚焦。在数据组织上,每个观测值对应一个国家、年份及可能的亚维度(如性别分层)组合,通过`dim1`和`dim2`字段实现多维度信息的结构化存储。
使用方法
该数据集可通过HuggingFace的`datasets`库便捷加载,使用`load_dataset`函数直接获取训练集,并转换为Pandas DataFrame进行后续分析。用户可通过筛选`dim1`字段中值为`SEX_BTSX`的记录,快速提取两性合计的全国层面数据,进而构建国家层面的面板数据。若聚焦特定国家的时间序列分析,可依据`country_iso3`字段进行过滤并按年份排序。对于需要分层建模的研究,可结合`dim1`和`dim2`字段实现性别、居住区域等维度的子集划分。数据加载后,`value_numeric`字段可作为回归或分类任务的直接目标变量,而置信区间字段可用于评估模型预测的可靠性。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队从世界卫生组织(WHO)全球卫生观察站(GHO)的公开数据中整理并重新打包,发布于HuggingFace平台,专注于非洲地区当前烟草吸烟流行率的估计。核心研究问题在于系统化收集和分析非洲40个国家2000至2030年间烟草使用流行率的时间序列数据,旨在为公共卫生政策制定者、流行病学家和机器学习研究者提供一个标准化、可直接用于建模和预测的数据资源。作为第一个统一整理的非洲烟草流行率机器学习就绪数据集,它填补了该区域在健康指标数据可获取性和结构化方面的空白,有望推动非洲控烟效果评估、趋势预测及相关社会决定因素研究的深入发展,对全球烟草控制和非洲公共卫生领域具有重要的数据基础价值。
当前挑战
该数据集面临的挑战包括:1)核心领域问题是全球范围内特别是非洲地区烟草流行率数据的不完整性和碎片化,阻碍了跨国比较、趋势分析及政策影响评估的准确性;数据来源虽然权威,但覆盖国家数量和年份连续性仍受制于各国报告体系的质量,部分数据缺失或存在测量差异。2)构建过程中遇到的挑战在于,从WHO API获取的原始数据需经过多维度剥离(如性别、城乡类别)和统一架构(Parquet格式)的转化,同时确保置信区间等辅助信息的完整性;此外,不同年份和子维度组合导致数据行的非结构化膨胀,需要精心设计过滤与聚合策略,以支持不同粒度的分析任务,并保持与原始来源的严格一致性。
常用场景
经典使用场景
非洲地区当前烟草吸烟率估计数据集(africa-who-estimate-of-current-tobacco-smoking-prevalence-estsmkcurr)是公共卫生与流行病学研究中不可或缺的资源。该数据集源自世界卫生组织全球卫生观察站,覆盖40个非洲国家2000至2030年的时间序列数据,包含按性别分类的吸烟率点估计值及其置信区间。其经典使用场景集中于构建预测模型,用于追踪和预测非洲大陆烟草使用的时空演变趋势。研究者常利用该数据集进行回归分析或时间序列建模,以量化不同国家间吸烟率的差异及其随时间的变化轨迹,为区域健康风险评估提供数据支撑。
解决学术问题
该数据集有效应对了非洲地区烟草使用监测中长期存在的标准化数据匮乏问题。在学术研究中,它帮助解决了多个关键难题:其一,填补了低收入国家吸烟率系统记录的空缺,使得跨国比较研究得以实现;其二,通过提供完整的时间序列,支持了烟草控制政策效果的回溯性评估;其三,为健康不平等研究提供了实证基础,尤其是性别维度下的吸烟行为差异分析。这一数据集的开放获取推动了全球健康研究中数据驱动决策范式的普及,其意义在于强化了证据基础,使得学术洞察能够转化为可操作的公共卫生战略。
实际应用
在实际应用层面,该数据集服务于多个关键领域。公共卫生机构利用它监测各国控烟措施的成效,通过对比政策实施前后的吸烟率变化来评估干预效果。国际组织如世界卫生组织依赖这些数据制定区域性烟草防控指南,并识别高负担国家以优先分配资源。此外,数据分析师和机器学习工程师将其用于开发预测模型,预估未来吸烟率走向,辅助政府制定长期健康规划。该数据集还支撑了健康经济学的成本效益分析,量化吸烟相关疾病对医疗系统的负担,为资源优化配置提供科学依据。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区当前烟草吸烟流行率的长期追踪与前瞻性预测,为全球公共卫生领域提供了关键的量化基础。前沿研究方向聚焦于利用机器学习模型对40个非洲国家2000至2030年的吸烟率进行时空分析与趋势推演,尤其关注性别分层数据与置信区间的整合,以揭示非洲大陆在烟草控制方面的进展与挑战。结合世界卫生组织全球健康观察站的数据源,该数据集支持跨区域比较与政策效果评估,当前热点事件如非洲烟草控制框架公约的执行进度、新型烟草制品兴起对传统吸烟率的影响,以及烟草相关疾病负担的预估,均依赖此类精细化数据进行实证研究。该数据集的开放性与标准化格式,极大地促进了可重复性研究,为制定针对性的公共卫生干预措施提供了数据驱动的前瞻性洞察。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务