five

electricsheepafrica/africa-who-historical-data-for-gnq

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-gnq
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为赤道几内亚-历史健康指标,由世界卫生组织发布,包含来自WHO数据门户的历史健康数据。数据集记录了一级行政单位的观测值,总共有6,136行和18列(6个数值型,12个类别型),分为4,908行的训练集和1,227行的测试集。数据涵盖赤道几内亚(GNQ)1970-2025年间的健康指标,包括平均BMI、青少年死亡率、酒精消费量等。数据集经过Electric Sheep Africa处理,转换为机器学习就绪的Parquet格式,并进行了数据清洗和标准化处理。

This dataset, titled Equatorial Guinea - Historical Health Indicators, is published by the World Health Organization and contains historical data from WHOs data portal. It consists of first-level administrative unit observations, with a total of 6,136 rows and 18 columns (6 numeric, 12 categorical), split into 4,908-row training set and 1,227-row test set. The data covers health indicators for Equatorial Guinea (GNQ) from 1970 to 2025, including mean BMI, adolescent mortality rate, alcohol consumption, etc. The dataset has been processed by Electric Sheep Africa into ML-ready Parquet format, with data cleaning and standardization applied.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)的历史数据门户,经由Electric Sheep Africa团队从人道主义数据交换平台(HDX)通过CKAN API获取原始数据,并转换为高效的Parquet格式。在清洗过程中,列名被统一为小写snake_case,常见缺失值标记被标准化为NaN,并移除了缺失率超过80%的gho_url列。同时,剔除了31行完全重复的观测记录,依据解析成功率超过85%的阈值,将6个列从字符串类型转换为数值或日期时间类型。最终,利用固定随机种子(42)将数据集按照80/20的比例划分为训练集(4908条)和测试集(1227条),并以Snappy压缩格式存储。
特点
该数据集聚焦于赤道几内亚国家级别的历史健康指标,涵盖1970年至2025年间的时间序列观测数据,以一级行政单位为观测单元,总计6136行、18个特征列。其中包含6个数值型变量(如numeric、low、high)、12个类别型变量(如gho_code、region_code)以及0个日期时间变量。值得注意的是,部分列如dimension_type、dimension_code存在超过30%的缺失值,而low和high列的缺失率甚至达51.1%,这些缺陷需在建模时审慎考量。数据集提供多种健康指标,如平均BMI、青少年死亡率、人均酒精消费量等,并附有置信区间信息(low和high),为流行病学分析提供了丰富素材。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,例如使用load_dataset('electricsheepafrica/africa-who-historical-data-for-gnq')命令,即可获取预分割的训练集和测试集。加载后的数据可便捷地转换为Pandas DataFrame格式,便于进一步的数据探索、可视化和机器学习建模。该数据集适用于表格分类与回归任务,尤其适合人道主义与发展领域的健康指标预测、趋势分析或区域比较研究。使用时应特别注意缺失值处理,尤其是对dimension_type、numeric等列进行适当插补或剔除,以避免模型偏差。
背景与挑战
背景概述
该数据集由世界卫生组织于2025年发布,经Electric Sheep Africa团队整理并转化为机器学习可用格式,聚焦赤道几内亚的历史健康指标。作为人道主义与发展数据领域的重要资源,它涵盖了1970年至2025年间第一级行政单位的观测数据,包括平均体重指数、青少年死亡率、人均酒精消费等关键健康指标。该数据集的创建旨在弥补非洲地区精细化健康数据的缺失,为流行病学分析、公共卫生政策评估及机器学习模型训练提供结构化支持。其影响力体现在为研究赤道几内亚健康趋势演变、区域对比以及健康不平等问题奠定了数据基础,同时促进了人道主义领域的数据共享与标准化应用。
当前挑战
该数据集面临的挑战主要来源于两个方面。领域问题上,非洲健康数据长期存在收集不完整、定义不一致及时空覆盖不均的困境,赤道几内亚作为研究对象,其数据稀疏性和指标波动性增加了模型泛化的难度。构建过程中,原始数据源自多个来源,需统一缺失值标记、消除重复记录,并处理超过20%缺失率的变量(如维度编码与置信区间字段)。此外,自动化清洗无法修正原始上报误差,且缺乏独立验证,使得数据质量高度依赖原始来源的可靠性,对下游预测任务构成潜在偏差风险。
常用场景
经典使用场景
在公共卫生与人道主义数据分析领域,赤道几内亚历史健康指标数据集为时空健康趋势建模提供了标准化基石。该数据集整合了世界卫生组织自1970年至2025年间的一级行政单元观测数据,涵盖体质指数、青少年死亡率及人均酒精消费等关键指标,特别适用于纵向健康轨迹预测与区域差异比较分析。研究者可借助其清洁的Parquet格式数据,构建分类与回归模型,探索社会经济环境与健康结局的关联,或评估政策干预的时间效应。
解决学术问题
该数据集有效弥合了非洲健康数据碎片化与机器学习就绪性之间的鸿沟。它解决了缺乏高质量、时序对齐的亚国家级健康指标这一长期痛点,使学者能够开展跨年代的健康不平等量化研究、传染病负担归因分析以及医疗卫生资源分配优化建模。通过提供标准化数值列与置信区间,该数据支持贝叶斯统计推断与因果推断,为全球健康治理提供了可复现的证据基础,推动了循证决策的科学化进程。
衍生相关工作
围绕该数据集衍生了一系列重要工作,包括Electric Sheep Africa开发的自动化数据清洗流水线,其缺失值统一化与类型推断方法已成为非洲ML数据基础设施的范例。研究者进一步将其与卫星夜间灯光、人口迁移等数据对齐,催生了基于时空图神经网络的环境健康预测模型。世界卫生组织官方亦引用该整理版本进行全球健康指标的可重复性基准测试,而开源社区则基于其建立交互式仪表盘,可视化赤道几内亚五十年间的健康变迁轨迹。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作