electricsheepafrica/africa-who-historical-data-for-cod
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-cod
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织数据门户的历史数据,每一行代表一级行政单位的观察结果。数据最后更新于2025年2月7日,地理范围为刚果民主共和国(COD)。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集涵盖人道主义和发展数据,包括健康指标如平均BMI、酒精消费量、青少年死亡率等。数据集总共有13,415行,18列(6个数值型,12个类别型,0个日期时间型),分为训练集(10,732行)和测试集(2,683行)。
This dataset contains historical data from WHOs data portal. Each row in this dataset represents first-level administrative unit observations. Data was last updated on HDX on 2025-02-07. Geographic scope: COD. Curated into ML-ready Parquet format by Electric Sheep Africa. The dataset covers humanitarian and development data, including health indicators such as mean BMI, alcohol consumption, adolescent mortality rate, etc. The dataset has a total of 13,415 rows, 18 columns (6 numeric, 12 categorical, 0 datetime), and is split into train (10,732 rows) and test (2,683 rows) sets.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)的官方数据门户,经由人道数据交换(HDX)平台的CKAN API获取原始数据。Electric Sheep Africa团队对其进行系统性清洗与标准化处理:将列名统一为小写下划线命名法,并将缺失值标记(如N/A、null等)统一替换为NaN。同时移除超过80%缺失值的列(gho_url),并剔除43行完全重复的记录。基于字符串解析成功率超过85%的阈值,将6列数据类型从字符串转换为数值或日期格式。最终以80/20比例随机分割为训练集与测试集(固定随机种子42),并保存为Snappy压缩的Parquet格式,以确保高效存储与加载。
特点
该数据集聚焦刚果民主共和国的一级行政区划健康指标,涵盖1961至2025年间的时间序列数据,包含18个字段,兼具数值型(6列)与分类型(12列)特征。核心变量涵盖BMI均值、人均酒精消费量、青少年死亡率等关键健康指标,同时提供性别、维度等多层次分类信息。数据经过严格的质量控制,缺失值分布明确标注,其中numeric、low和high三列的缺失率超过20%,提示用户在建模中需审慎处理。此外,数据集引入esa_source与esa_processed等溯源元数据,增强了数据的可追溯性与可信度。
使用方法
用户可通过HuggingFace的datasets库便捷调用该数据集,使用load_dataset函数直接加载至内存,并支持一键转换为Pandas DataFrame格式以进行后续分析。数据集已预分为train与test两个子集,便于直接用于监督学习任务。由于字段类型丰富,既适用于回归分析(如预测连续指标numeric值),也适用于分类任务(如基于value列的二元判断)。推荐对缺失率较高的列进行插补或剔除处理,并建议结合原始HDX页面中的方法论注释,以全面理解数据采集背景与潜在局限性。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年2月7日发布,由Electric Sheep Africa机构从人道主义数据交换平台(HDX)整理并转化为机器学习就绪格式,聚焦于刚果民主共和国(COD)的历史健康指标。数据集以第一级行政单位为观测单元,覆盖1961年至2025年间多项健康指标,如平均BMI、酒精消费量和青少年死亡率等。其核心研究价值在于为非洲地区的人道主义与发展数据分析提供结构化、可复用的资源,推动机器学习在公共卫生领域的应用,尤其对资源匮乏地区的数据驱动决策具有重要影响。
当前挑战
该数据集面临的挑战首先来源于领域问题的复杂性:刚果民主共和国长期受到冲突、基础设施薄弱和公共卫生系统不健全的影响,导致健康数据收集存在高缺失率和不一致性,例如字段'low'和'high'缺失率超过36%。其次,构建过程中的挑战包括:原始数据来自WHO多个来源,需统一格式并处理大量缺失值标记;自动清洗无法修正原始采集中的误报或定义差异;同时,数据的时间跨度长、变量类型混杂(数值与分类混合),对模型的数据预处理和特征工程提出较高要求。
常用场景
经典使用场景
在公共卫生与人道主义数据科学领域,该数据集最经典的使用场景是构建时空健康指标预测模型。研究者可基于刚果民主共和国省级行政单元的历史数据,利用字段如"numeric"(指标数值)和"year_display"(年份)等变量,对居民体重指数均值、人均酒精消费量及青少年死亡率等关键健康指标进行跨年度回归分析与趋势预测。其结构化的表格形式与明确的训练/测试划分,使其尤其适用于监督学习中的回归与分类任务,支持从简单的线性模型到复杂的梯度提升树、Transformer时间序列模型等多种范式。
实际应用
在实际应用中,该数据集为国际组织与非政府组织提供了数据驱动的决策支持工具。通过模型的预测输出,可在缺乏实时调查的地区估算特定疾病负担或营养状况,辅助世界卫生组织及刚果民主共和国卫生部合理分配疫苗、营养补给等医疗资源。此外,其与HDX(人道主义数据交换平台)的对接,使政府与援助机构能够在紧急响应场景中快速获取历史基准,以评估冲突或疫情对公共健康的冲击。
衍生相关工作
该数据集衍生出多个经典工作方向,包括以时空统计模型为核心的非洲健康指标基准测试框架,以及利用迁移学习将刚果(金)数据特征泛化至其他撒哈拉以南国家的尝试。部分研究聚焦于消除数据发布延迟问题,借助该数据训练针对WHO历史存档的自动清洗流水线。值得注意的是,数据整理方Electric Sheep Africa在此基础上进一步发布了多国标准化版本,催生了面向低收入国家的健康预测竞赛与工具包,成为连接源头官方统计与机器学习社区的重要桥梁。
以上内容由遇见数据集搜集并总结生成



