five

electricsheepafrica/africa-who-historical-data-for-ken

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-ken
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史数据,重点关注肯尼亚的历史健康指标。数据集中的每一行代表一级行政单位的观测数据。数据最后更新于2025年2月7日,地理范围为肯尼亚。数据集包含13,816行和18列(6个数值型,12个类别型,0个日期时间型),分为11,052行的训练集和2,763行的测试集。数据集涵盖了多种健康指标,如平均BMI、酒精消费量、青少年死亡率等,适用于人道主义和发展数据分析。

This dataset contains historical data from WHOs data portal, focusing on Kenyas historical health indicators. Each row in the dataset represents first-level administrative unit observations. The data was last updated on HDX on 2025-02-07, with a geographic scope of Kenya. The dataset contains 13,816 rows and 18 columns (6 numeric, 12 categorical, 0 datetime), split into 11,052 rows for training and 2,763 rows for testing. It covers various health indicators such as mean BMI, alcohol consumption, adolescent mortality rate, etc., and is intended for humanitarian and development data analysis.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)在HDX平台上发布的肯尼亚历史健康数据,经Electric Sheep Africa团队重新整理为机器学习就绪的Parquet格式。原始数据通过CKAN API获取,随后执行了列名标准化、通用缺失值统一转换为NaN、剔除缺失率超过80%的列、移除53行重复数据等清洗步骤。基于解析成功率阈值,将6列数据类型从字符串转为数值或日期格式。最终按照80/20比例划分训练集和测试集,并采用Snappy压缩的Parquet格式保存。
特点
数据集涵盖1961年至2025年间肯尼亚各一级行政单位的健康观测记录,总计13,816行、18列变量,包括6个数值型与12个类别型字段。核心指标涉及平均BMI、人均酒精消费量、青少年死亡率等,并提供地理编码、时间跨度、性别维度等细粒度分类信息。数据经过自动化清洗后仍存在部分缺失值,如numeric列缺失率达20.6%,但整体结构规范,便于直接用于表格分类与回归任务。
使用方法
用户可通过HuggingFace的datasets库快速加载数据,调用`load_dataset("electricsheepafrica/africa-who-historical-data-for-ken")`即可获取训练集与测试集,并将其转换为pandas DataFrame进行后续分析。数据集适用于健康指标的时间序列预测、区域健康水平对比、性别差异分析等研究场景。对于含有较高缺失率的numeric、low、high列,建议在使用前进行插值或剔除处理,并参考原始HDX页面的方法论说明以规避数据局限。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年发布,经Electric Sheep Africa团队整理为机器学习就绪的Parquet格式。聚焦肯尼亚地区,收录了1961年至2025年间涵盖居民平均BMI、人均酒精消费、青少年死亡率等健康指标的历史数据,以第一级行政单元为观测单位,共计13,816条记录。作为人道主义与发展数据领域的重要资源,该数据集为分析肯尼亚长期健康趋势、评估公共卫生干预效果提供了结构化、可计算的基础,推动了非洲区域健康数据在机器学习模型中的应用与跨学科研究。
当前挑战
该数据集的核心挑战在于应对健康指标预测中的领域难题:指标定义随年份与来源变化,且包含大量缺失值(如‘numeric’列缺失率超过20%),需设计稳健的缺失值处理与特征工程策略。构建过程中,原始数据混合多种标记编码(如HXL标签与WHO标准代码),需通过自动化清洗统一格式并移除重复行,同时保留地理与人口统计学维度信息,以维持模型训练的泛化能力与数据的一致性,从而支撑可靠的预测与回归任务。
常用场景
经典使用场景
在非洲健康与发展数据分析领域,肯尼亚历史健康指标数据集为研究者提供了跨越数十年(1961年至2025年)的行政单元级观测数据,涵盖人均酒精消费量、青少年死亡率、平均BMI等关键健康指标。其经典使用场景集中在时空流行病学建模与健康政策评估中,通过解析性别、地域等维度上的指标变化趋势,揭示肯尼亚各地区健康转型的长期动态。数据集以表格形式呈现,包含数值型与分类型特征,可直接用于回归与分类任务,亦可通过时间序列分析捕捉指标演变的阶段性规律,为公共卫生干预措施的效能回溯提供坚实的数据基础。
衍生相关工作
基于该数据集衍生出的经典工作主要集中在健康指标预测模型的构建与跨区域比较分析上。研究者以此为基础开发了多变量时间序列模型,预测肯尼亚各行政区的死亡率变化路径,并利用地理加权回归技术揭示空间异质性对健康结果的影响。此外,该数据常与HDX平台上的其他非洲国家数据集结合,开展联合建模工作,例如通过迁移学习方法将肯尼亚的健康指标模式泛化至数据稀缺的邻国。在方法论层面,它催生了针对高缺失率列(如numeric、low、high)的鲁棒插值算法改进,以及面向人道主义数据的标准化清洗流程规范,成为非洲计算社会科学领域公共健康数据再利用的标杆示例。
数据集最近研究
最新研究方向
在公共卫生与人工智能交叉领域,该数据集为肯尼亚历史健康指标的时序建模与空间异质性分析提供了标准化基础。前沿研究方向聚焦于利用多层级行政单元观测数据(涵盖BMI、酒精消费、青少年死亡率等关键指标)构建预测模型,以回溯性评估卫生政策干预效果。结合2025年更新的数据覆盖范围(1961-2025年),研究者可探索非传染性疾病的长期演变规律及其与区域经济、气候变量的耦合关系。当前热点事件如非洲大陆疾控体系强化与全民健康覆盖目标,促使该数据集被用于训练资源匮乏场景下的缺失值填补算法与多标签分类模型,其HXL标注特性更支持人道主义响应中的实时决策支持系统开发,对推动数据驱动的全球健康治理具有范式意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作