electricsheepafrica/africa-who-historical-data-for-stp
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-stp
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史数据,重点关注圣多美和普林西比的历史健康指标。数据集中的每一行代表一级行政单位的观察结果。数据最后更新于2025年2月7日,地理范围为圣多美和普林西比(STP)。数据集经过Electric Sheep Africa整理,转换为适合机器学习的Parquet格式。数据集包含10,230行,18列(6个数值型,12个类别型),并分为训练集(8,184行)和测试集(2,046行)。数据集涵盖多个健康相关变量,如平均BMI、酒精消费量、青少年死亡率等。
This dataset contains historical data from WHOs data portal, focusing on historical health indicators for Sao Tome and Principe. Each row in this dataset represents first-level administrative unit observations. Data was last updated on HDX on 2025-02-07, with a geographic scope of Sao Tome and Principe (STP). The dataset has been curated into ML-ready Parquet format by Electric Sheep Africa. It includes 10,230 rows and 18 columns (6 numeric, 12 categorical), split into train (8,184 rows) and test (2,046 rows) sets. The dataset covers various health-related variables such as mean BMI, alcohol consumption, adolescent mortality rate, etc.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)的历史数据门户,经由人道主义数据交换平台(HDX)获取,并由Electric Sheep Africa团队精心整理为机器学习就绪的Parquet格式。原始数据通过CKAN API下载后,历经列名标准化(统一转换为蛇形命名法)、缺失值统一处理(如“N/A”、“null”等替换为NaN)、高缺失率列(如gho_url)删除、精确重复行剔除,以及基于成功率阈值的类型转换,最终以固定随机种子(42)划分为80/20的训练集与测试集,并以Snappy压缩Parquet格式存储,确保数据的高效加载与使用。
特点
本数据集聚焦于圣多美和普林西比(STP)的首级行政区划单位,涵盖1961年至2025年间的历史健康指标,总计10230行、18列,包含6个数值型与12个分类型变量。核心特征包括地理信息(如区域代码、国家代码)、健康指标(如平均BMI、酒精消费量、青少年死亡率)以及维度分类(如性别、财富分位数)。值得注意的是,部分数值列(如numeric、low、high)存在高于20%的缺失率,但年份变量完整无缺,为时间序列分析提供了坚实基础。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,仅需调用`load_dataset`函数即可获取预分割的训练与测试集。数据以Pandas DataFrame形式呈现,便于进行探索性分析、特征工程及模型训练。研究者可结合地理与时间维度,对健康指标进行回归或分类任务,同时需注意对缺失值较高的`dimension_name`、`numeric`等列进行适当处理。推荐参考原始HDX页面中的方法论注释以深入理解数据局限性,并引用Electric Sheep Africa的整理版本以确保学术可复现性。
背景与挑战
背景概述
该数据集基于世界卫生组织(WHO)的历史健康数据构建,由Electric Sheep Africa于2025年整理并发布至Hugging Face平台,聚焦于圣多美和普林西比(STP)这一非洲岛国的健康指标。其核心研究问题在于将分散于人道主义与发展领域的管理单元级观察数据转化为机器学习就绪的Parquet格式,以支持分类与回归任务。数据集涵盖1961年至2025年间18个变量,包括地理、结果测量及元数据字段,为区域健康趋势分析及政策制定提供了结构化基准。作为非洲健康数据分析的重要资源,它填补了低资源地区标准化健康数据集的空白,推动了基于证据的公共卫生决策与机器学习模型在该区域的适配应用。
当前挑战
该数据集所解决的领域挑战包括:1)低资源地区健康数据碎片化与非结构化问题,通过整合WHO历史数据并标准化为统一格式,便于模型直接调用;2)缺失值普遍存在(如low和high列缺失率达42.3%,dimension_name缺失20.9%),要求模型对不完全数据具有鲁棒性。构建过程中的挑战有:1)原始数据源自HDX通过CKAN API下载,需处理多种丢失标记(如N/A、null)并统一为NaN;2)列名需标准化为snake_case,且自动清洗无法纠正报告误差或定义不一致;3)超过80%缺失的gho_url列被移除,同时去除43个精确重复行,确保数据质量;4)使用固定种子(42)以80/20比例划分训练与测试集,保障可复现性。
常用场景
经典使用场景
在公共卫生与人道主义数据科学领域,圣多美和普林西比历史健康指标数据集凭借其覆盖1961至2025年间第一级行政单元的观测记录,成为时空健康监测研究的经典资源。研究者常利用其包含的身体质量指数、酒精消费量及青少年死亡率等关键变量,构建回归或分类模型,以揭示该岛国健康指标的长期演变规律。该数据集经过去重、缺失值标准化与类型转换等预处理,划分为训练集与测试集,便于开展监督学习实验,尤其适用于探索低资源环境下健康数据的统计特征与预测潜力。
实际应用
在实际应用中,该数据集为政策制定者与国际组织提供了圣多美和普林西比健康指标的历史基准,支持证据驱动的卫生规划与资源分配。人道主义机构可借助其分析酒精消费与死亡率的关联,设计针对性的健康促进项目;公共卫生部门则能利用时序数据监测肥胖与青少年健康的长期变化,评估既有政策的成效。此外,数据集经机器学习友好格式封装后,可直接集成至预警系统或决策支持工具,助力实时健康风险识别与应急响应。
衍生相关工作
该数据集衍生了一系列重要的学术工作,包括基于时序分析的健康指标预测模型、探索地理与健康空间关联的聚类研究,以及整合多源人道主义数据的综合分析框架。研究者以其为基准,开发了针对缺失值处理的稳健统计方法,并比较了不同回归算法在稀疏健康数据上的表现。此外,该数据集还激发了关于小样本行政单元数据迁移学习的研究,推动非洲健康指标标准化与数据集基建的持续演进,为后续如电力羊非洲等组织的数据整理工作树立了典范。
以上内容由遇见数据集搜集并总结生成



