five

electricsheepafrica/africa-who-historical-data-for-mwi

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-mwi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含马拉维的历史健康指标数据,由世界卫生组织发布。数据以第一级行政单位观察为基础,涵盖多个健康相关指标,如平均BMI、酒精消费量等。数据集经过处理,转换为适合机器学习的Parquet格式,并分为训练集和测试集。

This dataset contains historical health indicators data for Malawi, published by the World Health Organization. The data is based on first-level administrative unit observations and covers various health-related indicators such as mean BMI and alcohol consumption. The dataset has been processed into a machine-learning-ready Parquet format and is split into training and test sets.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)的数据门户,经由人道主义数据交换(HDX)平台获取原始数据。Electric Sheep Africa团队利用CKAN API下载原始资料,并将其转换为适用于机器学习的Parquet格式。在清洗过程中,列名被统一转换为小写的蛇形命名法,常见缺失值标记(如N/A、null等)被标准化为NaN。同时,移除了缺失率超过80%的'gho_url'列以及68行完全重复的观测记录。此外,根据解析成功率阈值(>85%),将6列原本的字符串类型转换为数值或日期时间类型。最终,该数据集以固定随机种子42进行80/20划分,生成训练集(13,316行)和测试集(3,329行),并以Snappy压缩的Parquet格式存储。
特点
此数据集聚焦于马拉维(MWI)的历史健康指标,涵盖从1961年至2025年的长期观测数据,总计16,645行记录,包含18个变量,其中6个数值型、12个类别型。每条观测对应第一级行政单元,地理范围明确限定于马拉维。数据内容涉及平均BMI、酒精消费、综合覆盖指数等关键健康指标,并提供了按性别、财富十分位数等维度划分的细分信息。值得注意的是,部分数值列(如'numeric'、'low'、'high')存在超过20%的缺失值,在建模分析中需谨慎处理。该数据集由世界卫生组织发布,并经Electric Sheep Africa团队精细整理,确保了数据结构的一致性与可复用性。
使用方法
研究者可通过HuggingFace的datasets库便捷加载该数据集,使用'load_dataset("electricsheepafrica/africa-who-historical-data-for-mwi")'命令即可获取训练和测试两个分片。调用'.to_pandas()'方法可将数据转换为Pandas DataFrame,便于后续探索性分析与建模。数据集中包含地理编码(如region_code、country_code)、时间维度(year_display)以及丰富的健康指标变量,适用于表格分类与回归任务。在使用时,建议特别关注缺失值比例较高的数值列,并根据实际需求进行插补或过滤。对于模型构建,可参考原始HDX数据集页面中发布者的方法论注释,以准确理解指标定义与测量标准。
背景与挑战
背景概述
在公共卫生领域,历史健康数据的系统化整合对于揭示疾病演变规律、评估干预措施成效及优化资源配置具有不可替代的价值。由世界卫生组织(WHO)于2025年发布、经Electric Sheep Africa团队重新整理的africa-who-historical-data-for-mwi数据集,聚焦马拉维(MWI)这一撒哈拉以南非洲国家,收录了1961年至2025年间首级行政单元层面的历史健康指标观测记录,共计16,645行、18个字段。该数据集覆盖了身体质量指数、人均酒精消费量、儿童死亡率等关键指标,不仅为研究长期健康趋势提供了宝贵的时间序列资料,更通过标准化处理转化为机器学习兼容的Parquet格式,填补了非洲区域健康数据分析基础设施的空白,成为连接传统流行病学调查与当代数据驱动研究的桥梁。
当前挑战
该数据集解决的核心领域挑战在于:马拉维乃至非洲地区长期面临健康统计数据碎片化、不完整与时间跨度碎片化的问题,使得跨时期、跨区域的比较分析与建模推理极为困难。具体而言,其一,数据缺失显著,如`numeric`、`low`、`high`等关键数值字段缺失率超过20%,需在建模中审慎处理;其二,原始数据来源多元而定义不尽一致,自动化清洗无法纠正抽样偏差或误报值,可能引入系统误差;其三,数据集虽经去重与类型转换,但时间跨度过大(1961–2025年),其间诊断标准、记录方式与人口基数的变革增加了纵向类比的风险。此外,构建过程面临将非结构化、多来源的WHO仓库数据统一转化为机器学习可读格式的技术挑战,包括缺失值统一标记、重复行剔除及数值类型自动推断等环节的精度控制,这些预处理步骤虽然提升了可用性,却也潜藏着信息损失与偏差放大的隐忧。
常用场景
经典使用场景
该数据集汇集了世界卫生组织发布的马拉维历史健康指标,覆盖从1961年至2025年间各个一级行政单元的观测数据。经典的应用方式在于将其作为时序预测与分类建模的基础原料,研究者能够借助其中丰富的营养、酒精消费及儿童死亡率等指标,构建预测模型以追踪马拉维公共卫生状况的演变轨迹。同时,数据集经过标准化清洗并划分为训练集与测试集,便于快速开展监督学习实验,是探索非洲地区长期健康趋势的优质数据源。
实际应用
实际应用中,该数据集为人道主义组织和公共卫生决策者提供了可操作的数据支撑。利用这些历史指标,可以辅助规划疫苗接种覆盖率提升策略、监测酒精消费对社区健康的影响,以及评估慢性病干预措施的长期效果。非政府机构可基于模型预测结果,精准定位马拉维内部亟需医疗资源投入的高风险区域,从而优化有限资金与人力配置,提升健康援助的针对性与时效性。
衍生相关工作
该数据集的发布催生了多项衍生工作,包括基于其指标体系的区域健康晴雨表开发、结合地理空间信息预测疾病暴发风险的研究,以及利用深度学习模型进行营养状况趋势外推的尝试。此外,Electric Sheep Africa团队对其进行的标准化清洗流程已成为非洲人道主义数据再包装的参考范式,激励了后续如坦桑尼亚、肯尼亚等国历史健康数据集的类似转化,逐步构建起面向机器学习友好的非洲公共健康数据生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作