five

electricsheepafrica/africa-who-insufficiently-active

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-insufficiently-active
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标Insufficiently active (crude estimate)(`NCD_PAC_ADO`)的国家级别观测数据,时间跨度为2001年至2016年。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Insufficiently active (crude estimate)" (`NCD_PAC_ADO`) across African nations, spanning 2001–2016. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦非洲区域15个国家在2001至2016年间‘体力活动不足(粗略估计)’这一健康指标的国别观测数据。原始数据经过系统化清洗与重封装,以Parquet格式存储,并保持统一的列式结构。所有数值均采用浮点精度的原始字段NumericValue,而非显示字符串,确保机器学习任务的数值稳定性。同时,数据集中尽可能保留了置信区间上下界信息,为不确定性建模提供支撑。
特点
数据集涵盖了BEN、KEN、ZMB等15个非洲国家、跨度16年的720条记录,每条记录包含国家代码、年份、点估计值及置信区间。数据按性别(如两性、男性、女性)等维度进行分层,以dim1和dim2字段标识,便于研究者按需筛选或跨层聚合。所有数据均来自WHO AFRO区域的统一过滤,确保了地理与主题的一致性,非常适合用于非洲地区公共卫生领域的回归或分类建模任务。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,一行代码即可将数据转换为Pandas DataFrame进行后续分析。典型的用法包括按性别筛选国家级别数据(如保留两性混合的SEX_BTSX),或按国家代码提取特定国家的时间序列。数据集结构清晰,指标值value_numeric可直接作为机器学习的目标变量,适合构建健康风险预测或趋势分析模型。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年从WHO全球卫生观察站(GHO)OData API中提取并重新整理,聚焦于非洲国家居民身体活动不足(Insufficiently active)的粗估计值。该指标是非传染性疾病(NCD)风险因素监测体系中的关键组成部分,反映了久坐生活方式对公共健康构成的潜在威胁。数据集覆盖2001至2016年间15个非洲国家的720条观测记录,涵盖性别分层和置信区间估计,为研究非洲大陆身体活动不足流行病学提供了基础性、标准化且便于机器学习直接使用的高质量数据资源。其发布有助于填补撒哈拉以南非洲地区在非传染性疾病风险因素纵向数据方面的空白,推动了区域健康政策评估与精准干预模型的发展。
当前挑战
该数据集面临的核心挑战来自其服务的领域问题:第一,非洲国家普遍存在身体活动不足的公共卫生危机,该数据集旨在帮助研究者量化此类风险的行为模式、时空分布及其与经济社会因素的关联,从而为制定针对性干预策略提供数据支撑。第二,构建过程中面临多重难题,包括WHO原始API中数据结构的异构与缺失,需要设计统一的模式将其整合为机器学习友好的Parquet格式;不同年份、国家与性别组别的数据稀疏性问题,导致仅有15个国家满足连续观测要求;置信区间信息的部分缺失也增加了建模的不确定性处理难度。这些挑战要求后续研究者在利用该数据集时必须谨慎处理数据不平衡与缺失值,并开发能适应稀疏纵向结构的预测模型。
常用场景
经典使用场景
该数据集整合了世界卫生组织全球健康观察站发布的非洲国家身体活动不足(粗估计值)数据,覆盖2001年至2016年间15个非洲国家的年度观测,共计720条记录。经典使用场景包括构建时序预测模型,用以追踪和预测各国身体活动不足比例的演变趋势;亦可通过多维度筛选(如性别、居住区域)开展群体差异分析,评估不同人口亚群在身体活动不足状况上的异同。数据集以一致的Parquet格式与标准化列结构存储,便于直接集成到机器学习流水线中,支持分类与回归等任务。
解决学术问题
该数据集主要解决了非传染性疾病(NCDs)预防研究中长期缺乏系统性、跨国家、跨时间身体活动不足量化数据的问题。它使得学者能够量化非洲区域身体活动不足的流行程度及其时空分布规律,进而探讨身体活动不足与肥胖、心血管疾病、糖尿病等非传染性疾病的关联。通过提供置信区间和分层维度数据,数据集还支持对估计不确定性进行鲁棒性分析,推动了非洲区域健康指标监测方法的标准化进程,为全球健康政策评估提供了实证基础。
衍生相关工作
该数据集催生了多项衍生工作,包括基于国家层面的身体活动不足率构建非洲区域健康发展指数,整合多个GHO指标进行非传染性疾病风险因素的联合建模,以及开发轻量级时间序列预测工具包以支持低资源环境下的公共卫生量化分析。部分研究者已将数据与人文地理特征(如城市化率、交通基础设施)进行关联分析,探索身体活动不足的社会环境决定因素。此外,数据集中一致的列式结构已被‘Electric Sheep Africa’系列其他健康数据集所复用,形成了面向非洲区域的可复现机器学习基线框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作