electricsheepafrica/africa-who-historical-data-for-sle

Name: electricsheepafrica/africa-who-historical-data-for-sle
Creator: electricsheepafrica
Published: 2026-04-25 14:53:19
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-sle

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自世界卫生组织数据门户的历史健康指标数据，专门针对塞拉利昂。数据集中的每一行代表一级行政单位的观察结果。数据包括多种健康指标，如平均BMI、酒精消费量和青少年死亡率等。数据集已被Electric Sheep Africa整理为适合机器学习的格式，并分为训练集和测试集。数据最后更新于2025年2月7日，地理范围为塞拉利昂（SLE）。数据集包含14,318行和18列（6个数值型，12个类别型）。

This dataset contains historical health indicators data from the World Health Organizations data portal, specifically for Sierra Leone. Each row in the dataset represents first-level administrative unit observations. The data includes various health indicators such as mean BMI, alcohol consumption, and adolescent mortality rate, among others. The dataset has been curated into a machine-learning-ready format by Electric Sheep Africa and is split into training and test sets. The data was last updated on HDX on 2025-02-07, with a geographic scope of Sierra Leone (SLE). The dataset contains 14,318 rows and 18 columns (6 numeric, 12 categorical).

提供机构：

electricsheepafrica

搜集汇总

数据集介绍

构建方式

该数据集源自世界卫生组织官方数据门户，经人道主义数据交换平台（HDX）通过CKAN API获取原始数据，并由Electric Sheep Africa团队进行精细化的机器学习适配处理。原始数据被转换为Parquet列式存储格式，列名统一为小写蛇形命名法，常见缺失值标记（如N/A、null等）被统一转化为NaN。同时，移除了缺失率超过80%的`gho_url`列，并剔除了71行完全重复的观测记录。基于解析成功率阈值，6列数据类型被智能地从字符串转换为数值或日期类型。最终，数据集以固定随机种子（42）按80/20比例划分为训练集和测试集，并保存为Snappy压缩Parquet文件，极大提升了数据存取效率。

使用方法

用户可通过HuggingFace的`datasets`库便捷加载该数据集，调用`load_dataset("electricsheepafrica/africa-who-historical-data-for-sle")`即可获取训练与测试分片。数据集适用于表格分类与回归任务，可直接转换为Pandas DataFrame进行探索性分析，或作为时间序列预测、健康指标建模的标准输入。对于缺失值敏感的分析场景，建议重点关注`numeric`、`low`、`high`等列（缺失率超20%），可考虑插补或剔除策略。由于数据已预先清洗并统一格式，用户无需额外处理即可高效开展下游机器学习实验，尤其适合人道主义与公共卫生领域的预测建模研究。

背景与挑战

背景概述

在公共卫生与人工智能交叉领域，高质量的结构化数据是驱动健康指标预测与决策支持模型的基础。由世界卫生组织（WHO）于2025年发布，经Electric Sheep Africa整理为机器学习就绪格式的塞拉利昂历史健康指标数据集，聚焦于西非国家塞拉利昂第一级行政单位的健康观测数据。该数据集整合了长达六十余年（1961–2025年）的多元健康指标，涵盖身体质量指数、酒精消费、青少年死亡率等关键变量，旨在为人道主义和发展领域的分类与回归任务提供标准化数据资源。其影响力体现在为资源匮乏地区的健康监测提供可靠数据基础，同时促进非洲区域数据基础设施建设，为后续的跨国对比与时间序列分析奠定基石。

当前挑战

该数据集在解决领域问题与构建过程中均面临多重挑战。首先，其所应对的领域问题——公共卫生指标预测与分析——常受限于数据稀疏性与维度复杂性，例如部分指标的缺失率高达37.4%，且数值列存在极端异常值，影响模型泛化能力。其次，构建过程中遇到的主要挑战包括：原始数据来源（WHO门户与HDX）的定义差异与采样偏差需通过自动化清洗仅能部分缓解；地理范围仅局限于塞拉利昂，难以直接推广至其他非洲国家；此外，重复行与高缺失率列的剔除、字符串到数值的强制类型转换等预处理步骤，可能引入系统性误差。这些挑战要求使用者谨慎处理缺失值、进行领域知识校准，并考虑外部验证以提升模型鲁棒性。

常用场景

经典使用场景

该数据集汇集了世界卫生组织提供的塞拉利昂历史健康指标，涵盖体重指数、酒精消费、青少年死亡率等多维时间序列记录。其经典使用场景在于构建监督学习模型，以预测特定健康指标的变化趋势和区域分布特征。研究人员可借助分类任务识别高风险行政单元，或通过回归任务量化健康指标间的潜在关联，从而揭示卫生政策干预的长期效果。

解决学术问题

该数据集有效回应了非洲地区健康数据稀疏性与不完整性的核心挑战，为流行病学研究提供了结构化的量化基础。它使学者能够分析低资源环境下健康指标的时空演变规律，推动了精准公共卫生决策模型的发展。通过整合多源异构指标，数据集促进了健康不平等问题的实证探讨，为循证干预策略的设计提供了方法论支撑。

实际应用

在实际应用中，该数据集被用于开发针对塞拉利昂的早期预警系统，例如监测酒精消费趋势以预防公共卫生危机。非政府组织和人道主义机构利用其训练机器学习模型，识别医疗资源分配不均的区域，优化应急响应计划。此外，世界卫生组织等机构可基于其输出可视化仪表盘，辅助政策制定者动态追踪健康目标的实现进度。

数据集最近研究