electricsheepafrica/africa-who-historical-data-for-gnb
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-gnb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含几内亚比绍的历史健康指标数据,由世界卫生组织发布。每条记录代表一级行政单位的观测数据,涵盖1961年至2025年的数据。数据集包含10,488行,18列(6个数值型,12个类别型),分为训练集(8,390行)和测试集(2,097行)。数据特征包括地理信息(如地区代码、国家代码等)、健康指标(如平均BMI、酒精消费量、青少年死亡率等)、结果/测量值以及元数据。数据集经过清洗和转换,包括列名标准化、缺失值统一处理、数据类型转换等,并分为训练集和测试集。但需注意,数据未经验证,部分列缺失值较多。
This dataset contains historical health indicators data for Guinea-Bissau, published by the World Health Organization. Each row represents first-level administrative unit observations, covering data from 1961 to 2025. The dataset consists of 10,488 rows and 18 columns (6 numeric, 12 categorical), split into a training set (8,390 rows) and a test set (2,097 rows). Features include geographic information (e.g., region code, country code), health indicators (e.g., mean BMI, alcohol consumption, adolescent mortality rate), outcome/measurement values, and metadata. The dataset has been cleaned and transformed, including column name standardization, missing value unification, and data type conversion, and is split into training and test sets. Note that the data has not been independently validated, and some columns have a high percentage of missing values.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织历史健康数据门户,经由人道主义数据交换(HDX)平台获取原始资料,并由Electric Sheep Africa团队精心编排为机器学习就绪的Parquet格式。原始数据通过CKAN API从HDX下载,随后经历了一系列标准化处理:列名统一转换为小写蛇形命名法,常见缺失值标记(如N/A、null等)被统一替换为NaN,并剔除了缺失率超过80%的gho_url列。此外,还移除了44行精确重复数据,将六列基于解析成功率阈值从字符串型转换为数值或日期类型。最终,数据集以固定随机种子42按80/20比例划分为训练集与测试集,并存储为Snappy压缩的Parquet文件。
特点
此数据集聚焦于几内亚比绍(GNB)国家级行政区划观测单位的健康指标历史记录,涵盖1961年至2025年间的时间跨度,共计10,488行数据、18个字段。其特色在于融合了多种数据类型:6个数值字段(如BMI均值、酒精人均消费量等)、12个分类字段(包括地理编码、性别维度等),且无日期时间字段。数据维度丰富,既有核心健康指标(如青少年死亡率),也包含空间标识(区域代码、国家代码)和元数据字段(如esa_source)。约20%至44%的列存在缺失值,如low和high置信区间字段缺失率较高,这为建模时的数据处理带来了独特挑战。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,仅需调用`load_dataset("electricsheepafrica/africa-who-historical-data-for-gnb")`即可获取训练集与测试集。加载后,数据可转换为Pandas DataFrame格式进行探索性分析或机器学习建模,例如通过`ds["train"].to_pandas()`操作。数据集适用于表格分类与回归任务,开发者可针对gnb健康指标进行预测分析,同时需注意处理缺失值较高的维度字段(如dimension_name、low、high),并参考原始HDX页面中发布者的方法论说明以规避采样偏差等局限。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年发布,经Electric Sheep Africa机构重新整理为机器学习就绪格式,聚焦于几内亚比绍(Guinea-Bissau)的历史健康指标。数据集涵盖了1961年至2025年间的一级行政区观测数据,包括身体质量指数、酒精消费、青少年死亡率等关键健康变量,共包含10,488行记录和18个特征。作为人道主义与发展领域的数据资源,它在非洲健康研究、流行病学建模及政策评估中具有重要应用价值,为理解撒哈拉以南非洲的健康趋势提供了结构化的时间序列基础,填补了该区域标准化健康数据的缺口。
当前挑战
该数据集面临的核心挑战包括:1) 领域问题层面,原始健康数据往往存在报告偏差、定义不一致和抽样不均等问题,导致模型预测的稳健性受限,尤其在小样本行政区划中容易产生偏估计;2) 构建过程中,数据清洗需处理高缺失率字段(如low和high列缺失超43%)、统一不同来源的缺失标记(如'N/A'、'No data'等),并将字符串型数据转换为数值型,同时需移除44行完全重复记录和冗余列(gho_url),在保留原始生态效度与提升机器学习适用性之间需谨慎权衡。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织关于几内亚比绍的多年历史健康指标,涵盖体质指数、酒精消费、青少年死亡率等关键公共卫生计量。其数据结构以第一级行政区划为观测单元,横跨1961年至2025年的长时间跨度,为研究者提供了分析西非地区健康变迁的宝贵窗口。常被用于构建预测模型,探索社会经济因素与健康结果的关联,或评估公共卫生干预措施的历史效果。
实际应用
在实际应用中,该数据集可支持联合国可持续发展目标(SDGs)的监测与评估,帮助非政府组织和人道主义机构识别健康资源分配的薄弱环节。例如,通过分析酒精消费与青少年死亡率的区域内差异,可用于指导健康干预项目的优先级排序。此外,该数据已被转化为即用型Parquet格式,降低了技术门槛,使公共卫生从业者能快速将历史健康指标融入决策支持系统或数据看板。
衍生相关工作
基于此数据集,衍生出了一系列围绕非洲健康数据标准化与机器学习的经典工作。Electric Sheep Africa团队将其重新包装为ML-Ready格式,形成了可供复用的非洲卫生健康数据集基准。后续研究常以此为基础,开发针对小样本量或高缺失率数据的稳健回归模型,或探索时空插值技术在稀疏健康监测网络中的应用。该数据集还常被用作教学案例,用于演示表格数据的清洗、特征工程及迁移学习在低资源环境下的有效性。
以上内容由遇见数据集搜集并总结生成



