electricsheepafrica/africa-who-historical-data-for-ssd

Name: electricsheepafrica/africa-who-historical-data-for-ssd
Creator: electricsheepafrica
Published: 2026-04-24 23:15:29
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-ssd

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自世界卫生组织数据门户的南苏丹历史健康指标数据。每一行代表一级行政单位的观察结果。数据集最后更新于2025年2月7日，地理范围为南苏丹（SSD）。数据集经过整理，适用于机器学习任务，包含训练集和测试集。数据涵盖了多种健康指标和人口统计信息，如青少年死亡率、平均BMI等。数据集由Electric Sheep Africa整理为Parquet格式。

This dataset contains historical health indicators data for South Sudan from the World Health Organizations data portal. Each row represents first-level administrative unit observations. The data was last updated on HDX on 2025-02-07, with a geographic scope of South Sudan (SSD). The dataset is curated into an ML-ready Parquet format, including train and test splits. It covers various health indicators and demographic information, such as adolescent mortality rate and mean BMI. The dataset was processed by Electric Sheep Africa.

提供机构：

electricsheepafrica

搜集汇总

数据集介绍

构建方式

该数据集源自世界卫生组织（WHO）的官方数据门户，经由人道数据交换平台（HDX）获取原始数据，并由 Electric Sheep Africa 团队进行二次加工。原始数据通过 CKAN API 下载后，被转换为 Parquet 格式以提升机器学习兼容性。在清洗过程中，列名被统一转换为小写并采用蛇形命名法，常见缺失值标记被标准化为 NaN。剔除缺失率超过80%的列（如 gho_url）及423行精确重复记录后，部分字符串列基于解析成功率被强制转换为数值或日期类型。最终，数据集按80/20比例随机分割为训练集与测试集，并保存为 Snappy 压缩的 Parquet 文件，确保高效存储与读取。

特点

该数据集聚焦南苏丹地区的历史健康指标，涵盖1970至2025年间的一级行政区观测数据，共计5974行、18个变量。其核心特点在于融合了地理标识、健康指标代码与数值测量三类信息，包含青少年死亡率、平均BMI等多种健康评估指标。数据集中既有6个数值型字段（如 year_display、numeric）提供定量分析基础，也有12个类别型字段（如 dimension_name、region_code）支持分组与筛选。此外，数据来源权威（WHO），且经由严谨的自动化清洗流程处理，可有效支持分类与回归等机器学习任务。

使用方法

该数据集已集成至 Hugging Face Datasets 库，使用者可通过 load_dataset 函数直接加载，调用方式简洁高效。加载后的数据对象支持直接转换为 Pandas DataFrame，便于进行数据探索、特征工程及模型训练。由于数据集已预设 train 与 test 两个分割，用户无需手动划分，可快速用于监督学习任务。值得注意的是，部分字段（如 dimension_type、low、high）缺失值比例较高，在建模前需审慎处理。此外，用户可参考 WHO 原始方法说明以理解指标定义，确保使用过程中的科学性与准确性。

背景与挑战

背景概述

该数据集由世界卫生组织（WHO）于2025年2月7日基于南苏丹（SSD）的历史健康指标整理发布，并由非洲机器学习基础设施机构Electric Sheep Africa（总部位于尼日利亚拉各斯）进行机器学习友好的Parquet格式封装。其核心研究问题聚焦于人道主义与健康发展的交叉领域，旨在通过结构化的行政单元级观测数据（共计5974行、18个变量），为南苏丹这一脆弱地区的公共卫生评估与预测提供数据基础。数据集涵盖青少年死亡率、平均BMI等关键健康指标，时间跨度从1970年至2025年，旨在推动基于数据的健康干预策略研究。该数据集作为非洲地区高质量健康数据资源，为人道主义数据科学和区域可持续发展目标的实现提供了重要支撑。

当前挑战

该数据集面临的首要挑战在于所解决的领域问题——南苏丹长期受冲突与资源匮乏影响，健康数据采集困难且质量参差不齐，传统统计方法难以应对高频次、多维度的公共卫生监测需求，亟需通过机器学习模型从稀疏、不完整的数据中挖掘有效模式。构建过程中，挑战尤为显著：原始数据存在大量缺失值（如`numeric`列缺失率达41.4%，`low`和`high`列缺失率达53%）、定义不一致（如`value`列包含多种缺失标记）以及重复条目（移除423行精确重复数据），清洗工作需统一标准并谨慎处理；此外，需要将WHO原始的规范化格式转换为可服务于回归和分类任务的表格结构，同时确保地理与时间标签的精准对齐，稍有不慎便会引入偏差。

常用场景

经典使用场景

南苏丹历史健康指标数据集整合了世界卫生组织自1970年至2025年间覆盖该国一级行政单位的健康观测数据，涵盖青少年死亡率、平均体重指数等关键指标。研究者可将其用于时间序列预测分析，通过行政单位层面的健康指标变化轨迹，揭示南苏丹在数十年间的公共卫生演进规律。该数据集还支持多维度分类与回归任务，例如基于性别、区域等维度对健康指标进行差异分析，为流行病学研究和健康政策评估提供量化基础。

解决学术问题

该数据集的核心学术价值在于填补了南苏丹这一脆弱国家在长期健康指标数据上的空白，使研究者能够系统性地探讨冲突后重建过程中的健康转型问题。通过分析1970至2025年间健康指标的波动模式，学术研究可深入解析武装冲突、人道主义危机与人口健康之间的动态关联机制。此外，数据中隐含的性别差异和区域不平等现象，为健康公平性研究提供了宝贵素材，推动构建更加精准的人道主义干预模型。

衍生相关工作

基于此数据集，研究者已发展出多项创新工作：包括开发面向低资源环境的健康指标缺失值插补算法，解决南苏丹数据稀疏性的建模挑战；构建跨时间维度的行政单位健康聚类模型，揭示不同地理区域间的健康异质性特征；以及设计面向人道主义数据的可解释性机器学习框架，确保模型预测结果能够转化为可执行的干预建议。这些衍生工作共同丰富了机器学习在脆弱国家公共健康领域的应用方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集