five

electricsheepafrica/africa-who-historical-data-for-dza

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-dza
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含阿尔及利亚的历史健康指标数据,由世界卫生组织发布,数据来源于HDX平台。数据集涵盖了从1961年到2025年的健康指标数据,包括阿尔及利亚一级行政单位的观测数据。数据集被分为训练集和测试集,分别包含7353和1838行数据。数据集包含18个列,其中6个是数值型,12个是类别型。数据集提供了详细的变量描述、快速开始指南、数据模式、数值摘要、数据清理过程、局限性以及引用信息。

This dataset contains historical data from WHOs data portal. Each row in this dataset represents first-level administrative unit observations. Data was last updated on HDX on 2025-02-07. Geographic scope: DZA. The dataset is curated into ML-ready Parquet format by Electric Sheep Africa. It includes 9,192 rows with 18 columns (6 numeric, 12 categorical). The dataset is split into train (7,353 rows) and test (1,838 rows) sets.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源于世界卫生组织(WHO)的历史健康数据门户,经由人类数据交换平台(HDX)的CKAN API获取原始数据。数据以第一级行政单元为观测单位,覆盖阿尔及利亚(DZA)。Electric Sheep Africa团队对原始数据进行了系统性的清洗与格式化处理,包括将列名统一为小写蛇形命名法、将常见缺失值标记统一为NaN、移除缺失率超过80%的列(如gho_url),并基于解析成功率将六列从字符串转换为数值或时间类型。最终,数据采用80/20比例随机分割为训练集(7,353行)和测试集(1,838行),并以Snappy压缩的Parquet格式存储,便于机器学习直接调用。
特点
该数据集共包含9,192条记录和18个特征列,涵盖6个数值列、12个类别列。核心变量涵盖地理标识(如地区代码、国家代码)、健康指标代码与显示名称(如平均BMI、人均酒精消费量)、时间范围(1961年至2025年)以及数值测量结果(含低值、高值区间)。特别地,数据集引入了经Electric Sheep Africa处理的esa_source与esa_processed元数据列以标识数据来源与处理状态。其显著特点在于融合了多维度健康指标与行政区域信息,适用于分类与回归两类任务,且大部分列无缺失值,但dimension_type等列缺失比例超过20%需谨慎使用。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集:使用load_dataset函数直接获取训练与测试分割,并支持转换为pandas DataFrame进行后续分析。数据集预设有分类与回归标签,数值列可作为回归目标,而value列(含'Yes','No','No data')适用于分类建模。建议在建模前对含有高缺失率的列(如dimension系列及low、high区间值)进行插补或剔除,并参考原始WHO发布的方法论注释以理解指标定义。此外,数据集已集成至HXL标准标签体系,便于在人道主义数据分析流程中与其它HDX数据集联合使用。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年发布,经Electric Sheep Africa机构进行机器学习友好型重构,聚焦于阿尔及利亚(DZA)的历史健康指标。研究涵盖1961年至2025年间第一级行政单位的观测数据,包括平均体质指数、人均酒精消费量及青少年死亡率等关键公共卫生变量。作为人道主义与发展领域的重要资源,该数据集为分析北非地区长期健康趋势、评估干预措施效果提供了标准化数据基础,尤其对非洲区域健康指标建模与政策制定具有显著推动作用。
当前挑战
首先,数据面临的领域问题包括:健康指标的时空异质性导致跨区域可比性不足,部分指标(如酒精消费量)存在定义不一致或统计口径变迁;原始数据中26.7%的数值字段缺失、46%的置信区间数据不完整,严重制约回归与分类任务的准确性。其次,构建过程中需应对多源融合难题:从HDX平台通过CKAN API采集原始数据时需统一缺失值标记(如'N/A'、'null'),并处理近0.5%的重复行;非结构化文本字段(如gho_display)的标准化转换与18列变量中6列数值列的格式推断,亦构成数据清洗的技术挑战。
常用场景
经典使用场景
该数据集收录了世界卫生组织在阿尔及利亚一级行政单位层面积累的历史健康指标,涵盖1961年至2025年间的多维观测数据。研究者可借此剖析健康指标的时空演变规律,例如通过gpo_display变量中的平均体重指数、人均酒精消费量及青少年死亡率等核心指标,结合行政区域与时间维度,构建面板数据模型。典型应用包括探究经济发展与公共卫生水平的关联、评估健康干预措施的长周期效应,或作为时间序列预测的基准数据,尤其适用于资源有限地区的公共卫生政策回溯性分析。
解决学术问题
该数据集有效回应了非洲地区健康监测数据零散化与不可比性的难题,为跨年代、跨维度的健康指标分析提供了标准化接口。学术上,它支撑了发展中国家健康转型轨迹的量化研究,尤其是非传染性疾病负担上升与传染性疾病防控成效的对比分析。其分层结构允许学者分离性别、社会经济地位等混杂因素,从而更精确地估计健康不平等程度。数据集的公开性与机器可读格式也降低了复现性研究的门槛,促进了开放科学范式在公共卫生领域的实践。
衍生相关工作
该数据集催生了多项衍生性研究工具与模型,例如基于时空图神经网络的健康指标预测框架,利用区域关联性提升缺失值插补精度。部分工作聚焦于解释性建模,通过SHAP值或广义加性模型解构性别与年代对健康结果的交互效应。另有研究将其与遥感气象数据耦合,构建阿尔及利亚气候变化与媒介传播疾病的风险映射模型。围绕该数据集,还产生了自动化数据清洗管线与可视化仪表板等开源工具,进一步降低了非技术用户的分析门槛。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作