five

electricsheepafrica/africa-who-prevalence-of-insufficient-physical-activity-among-adults-ncdpac

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-insufficient-physical-activity-among-adults-ncdpac
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家18岁以上成年人缺乏身体活动的流行率(粗略估计)的指标数据(NCD_PAC),时间跨度为2000年至2022年。数据集是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO GHO OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为3,243条,并可按性别等子维度进行筛选或聚合。

This dataset contains country-level observations for the WHO GHO indicator "Prevalence of insufficient physical activity among adults aged 18+ years (crude estimate) (%)" (NCD_PAC) across African nations, spanning 2000–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 3,243 rows and can be filtered or aggregated by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区18岁及以上成年人缺乏身体活动的粗患病率(%)。数据涵盖2000年至2022年间的47个非洲国家,共计3243条观测记录。所有数值均提取自API返回的浮点精度字段NumericValue,而非显示字符串,并整合了置信区间上下界。数据集以Parquet格式存储,遵循统一的模式设计,便于机器学习直接加载,是Electric Sheep Africa项目下非洲领域数据集集合的组成部分。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,调用load_dataset函数即可获取训练集并转换为Pandas DataFrame进行分析。建议通过过滤dim1字段中的'SEX_BTSX'值或缺失值来提取全国层面的总体估计值。对于时间序列分析,可按国家代码(如country_iso3 == 'KEN')筛选并依据年份排序。数据集还可用于回归任务以预测患病率趋势,或结合其他健康指标进行多变量分析。
背景与挑战
背景概述
非传染性疾病(NCDs)已成为全球公共卫生领域的重大挑战,其中缺乏身体活动是导致心血管疾病、糖尿病和某些癌症等慢性病的关键风险因素。世界卫生组织(WHO)通过全球卫生观察站(GHO)持续监测各国成年人(18岁及以上)身体活动不足的流行率,以指导干预政策的制定。在此背景下,Electric Sheep Africa团队于2022年系统整理了覆盖47个非洲国家、时间跨度为2000年至2022年的观测数据,形成了名为“africa-who-prevalence-of-insufficient-physical-activity-among-adults-ncdpac”的数据集。该数据集基于WHO的官方指标NCD_PAC,由GHO的OData API采集并重构为统一的Parquet格式,旨在为机器学习模型提供可直接使用的非洲区域健康数据,填补了该地区在身体活动不足研究方面缺乏高质量、结构化训练数据的空白,对推动非洲非传染性疾病风险建模、公共卫生政策评估及跨时空趋势分析具有重要价值。
当前挑战
该数据集所解决的领域问题聚焦于非洲地区身体活动不足流行率的量化与预测,然而,由于非洲各国在医疗基础设施、数据采集能力及报告标准上存在巨大差异,原始数据面临缺失值普遍、置信区间非全覆盖以及年份与国家组合不均衡等挑战。在构建过程中,研究团队需应对多个技术难点:首先,从WHO OData API获取的数据含有显示字符串与数值字段并存的复杂格式,必须精确提取浮点精度的`NumericValue`以确保模型输入的一致性;其次,数据按性别(SEX)等维度分层导致同一国家-年份组合产生多条记录,实现跨维度聚合或按需筛选(如仅保留全国性数据)增加了预处理流程的复杂性;此外,需处理国家编码(ISO 3166-1 alpha-3)与WHO区域码的映射,并整合不同更新时间的观测值,以构建时间序列分析所需的连贯序列。
常用场景
经典使用场景
该数据集的核心应用场景在于对非洲地区成年人身体活动不足流行率的时空分布进行建模与分析。研究者可借助其覆盖47个非洲国家、横跨2000至2022年的面板数据,运用回归模型或时间序列方法,揭示不同性别、年龄及城乡亚组间身体活动不足率的动态演变规律。数据中一致的数值字段与置信区间信息,为构建稳健的预测模型和进行区域间比较提供了坚实基础。
解决学术问题
该数据集有效解决了非洲地区身体活动不足流行病学研究中长期存在的数据碎片化与可比性缺失问题。它使学者能够系统量化非传染性疾病关键风险因素在非洲大陆的流行程度,探究其与城市化、经济发展等宏观变量的关联。数据集为验证全球身体活动指南在非洲的适用性、评估各国非传染性疾病防控政策成效提供了统一的量化基准,推动了全球健康不平等研究向更精细的地域粒度发展。
实际应用
在实际公共卫生决策中,该数据集支持各国卫生部门及国际组织(如WHO、非洲疾病预防控制中心)对区域身体活动水平进行监测与基准评估。基于不同年龄、性别亚组的估计值,政策制定者可精准识别高风险群体,设计针对性干预措施,例如在女性活动不足率偏高地区推广社区体育计划。同时,数据的时间序列特性便于追踪干预效果,为《WHO全球身体活动行动计划》在非洲的实施成效提供实证依据。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区成年人身体活动不足流行率的时空分布与健康影响评估,是非传染性疾病(NCDs)防控研究的前沿数据资源。结合WHO全球健康观察站(GHO)的权威指标,它通过47个非洲国家、跨越2000至2022年的长时序观测,为量化久坐行为与心血管疾病、糖尿病等慢性病关联提供了关键基础。当前热点方向包括利用该数据进行多层次贝叶斯建模以揭示区域不平等性、探索性别与城乡维度下的身体活动差异,以及整合气候、城市化等环境协变量预测未来健康负担。这一数据集不仅填补了非洲大陆高分辨率健康行为数据的缺口,更推动了机器学习在公共卫生决策中的应用,例如构建早期预警系统以指导干预政策,对实现WHO‘2030年减少身体活动不足’全球目标具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务