electricsheepafrica/africa-who-historical-data-for-com
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-com
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织数据门户的历史数据,涉及科摩罗的第一级行政单位观察数据。数据集分为训练集(6,873行)和测试集(1,718行),共8,592行,18列(6个数值型,12个类别型)。数据集涵盖了多种健康指标,如平均BMI、青少年死亡率、酒精消费量等。数据最后更新于2025年2月7日,由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集的使用需要注意数据来源的限制和缺失值问题。
This dataset contains historical data from WHOs data portal, representing first-level administrative unit observations for Comoros. The dataset is split into train (6,873 rows) and test (1,718 rows) sets, totaling 8,592 rows with 18 columns (6 numeric, 12 categorical). It covers various health indicators such as mean BMI, adolescent mortality rate, and alcohol consumption. The data was last updated on HDX on 2025-02-07 and was curated into ML-ready Parquet format by Electric Sheep Africa. Users should be aware of the datas limitations and missing values.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)的历史健康指标,经由HDX平台通过CKAN API获取原始数据,并由Electric Sheep Africa团队进行清洗与重构。原始数据经过列名统一为小写蛇形命名法,缺失值标记被标准化为NaN,并移除了缺失率超过80%的列(如gho_url)。此外,剔除了74行完全重复的记录,并根据解析成功率将6列从字符串转换为数值或日期类型。最终以80/20比例随机分割为训练集与测试集,采用固定随机种子(42)确保可复现性,并以Snappy压缩的Parquet格式存储,形成适用于机器学习的高效数据格式。
特点
此数据集包含科摩罗(COM)地区自1961年至2025年间的一级行政单位观测数据,共8,592行、18列,涵盖6个数值型与12个类别型变量。核心变量包括地理编码、年份范围、健康指标代码(如BMI均值、青少年死亡率)及其数值,同时附有置信区间(low/high)与维度分类(如性别、财富分位数)。数据集在人文与发展领域具有独特价值,其结构化设计便于进行表格分类与回归任务,且通过标准化处理提升了数据可用性,但部分列(如dimension_type)缺失率超过20%,需谨慎使用。
使用方法
使用者可通过Hugging Face的datasets库直接加载该数据集:调用load_dataset('electricsheepafrica/africa-who-historical-data-for-com')即可获取训练集与测试集。数据以Pandas DataFrame格式读取后,可快速进行探索性分析或建模。需注意,原始数据来自WHO,Electric Sheep Africa未进行独立验证,建议结合HDX页面的原始方法说明与局限性(如部分列高缺失率)进行解读。典型应用场景包括健康指标趋势预测、地区间比较分析或机器学习模型的基准测试。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年发布,并经Electric Sheep Africa团队重新整理为机器学习就绪的Parquet格式,聚焦科摩罗(Comoros)的历史健康指标。数据集涵盖1961年至2025年间的一级行政单位观测数据,包括平均体重指数、青少年死亡率、人均酒精消费等关键健康指标,旨在为非洲人道主义与发展研究提供结构化数据支持。作为非洲地区健康数据标准化的重要尝试,该数据集填补了科摩罗长期缺乏高质量、机器可读历史健康数据的空白,为流行病学分析、政策评估及预测建模提供了基础资源,对推动非洲公共卫生领域的数据驱动研究具有显著意义。
当前挑战
该数据集面临的挑战体现在多个层面。领域层面,科摩罗作为发展中国家,健康数据存在显著的采集不完整、定义不一致与抽样偏差问题,如青少年死亡率等指标可能因登记系统薄弱而低估,影响模型泛化能力。构建过程中,原始数据未经独立验证,自动化清洗难以纠正误报值,且部分关键列(如dimension_type、numeric)缺失率超过20%,需谨慎处理。此外,数据时空跨度大(1961-2025年),不同时期收集标准存疑,增加了时间序列分析的复杂性。地域范围仅限于科摩罗,限制了跨区域比较研究的可能性。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织(WHO)关于科摩罗(Comoros)历史健康指标的官方记录,以第一级行政单元为观测对象,覆盖了从1961年至2025年间多项关键公共卫生指标,如平均体重指数、青少年死亡率及人均酒精消费量等。数据经过精心清洗与标准化处理,已转化为机器学习友好型的Parquet格式,并划分为训练集与测试集。研究者通常借助该数据集进行国家级或地区级健康趋势的时序分析与回归建模,通过探索数值型指标与分类变量(如性别、财富阶层)之间的内在关联,构建预测性模型以评估公共卫生干预措施的历史成效。
解决学术问题
该数据集有效解决了低资源国家长期公共卫生数据碎片化与可获取性不足的学术痛点。在以往针对非洲小岛屿发展中国家的流行病学研究中,学者常因数据缺失或格式不统一而难以开展跨时序的定量分析。此数据集通过系统整合WHO官方历史记录,填补了科摩罗地区健康指标在长时序、多维度上的研究空白。其科学意义在于:为公共卫生学者提供了标准化、可复用的基准数据,支持非传染性疾病负担评估、青少年健康风险因素识别、酒精消费社会经济梯度分析等前沿议题,显著推动了全球健康治理体系下的循证决策研究。
衍生相关工作
该数据集已催生了一系列富有影响力的衍生研究工作。基于其规范的表格结构与时间序列特征,Electric Sheep Africa团队针对非洲公共卫生数据开发了自动化清洗流水线,相关工具包被应用于多个HDX子数据集的重构与标准化。同时,学术界涌现出利用该数据训练轻量级回归模型以预测科摩罗未来健康趋势的探索性成果,其中部分工作结合了地理空间分析,揭示了健康指标在行政单元间的空间异质性。这些衍生工作不仅验证了该数据集在迁移学习场景下的可复用性,更为构建覆盖全非洲的公共卫生智能分析框架奠定了数据基座。
以上内容由遇见数据集搜集并总结生成



