five

electricsheepafrica/africa-who-historical-data-for-gin

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-gin
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史数据,重点关注几内亚的健康指标。每一行数据代表一级行政单位的观察结果。数据集最后更新于2025年2月7日,地理范围为几内亚(GIN)。数据集经过整理,适用于机器学习,包含训练和测试分割。数据涵盖多种健康指标和元数据,如平均BMI、青少年死亡率、酒精消费量等。数据集由Electric Sheep Africa整理为Parquet格式。

This dataset contains historical data from WHOs data portal, focusing on health indicators for Guinea. Each row represents first-level administrative unit observations. The data was last updated on HDX on 2025-02-07, with a geographic scope of Guinea (GIN). The dataset is curated for machine learning, with train and test splits. It includes various health indicators and metadata, such as mean BMI, adolescent mortality rate, and alcohol consumption. The dataset was repackaged into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织(WHO)的历史健康指标数据库,经由人道主义数据交换平台(HDX)的CKAN API原始抓取后,由Electric Sheep Africa团队精心整理并转化为机器学习友好的Parquet格式。构建过程中,列名统一转换为小写蛇形命名法,常见缺失值标记(如N/A、null等)被统一替换为NaN,并剔除了缺失率超过80%的gho_url列。此外,移除了89条完全重复的行,将6个字符串列基于解析成功率(>85%)转换为数值或日期类型。最终,数据集以固定随机种子(42)按80/20比例划分为训练集与测试集,并以Snappy压缩的Parquet格式存储。
使用方法
该数据集主要通过Hugging Face的datasets库加载使用。研究者可执行`load_dataset("electricsheepafrica/africa-who-historical-data-for-gin")`直接获取训练与测试分区,并轻松转换为Pandas DataFrame进行探索性分析。数据适用于表格分类与回归任务,用户可利用`gho_code`等标识符选择特定健康指标进行建模,或结合`year_display`时间列分析健康趋势。由于数据已预先清洗并标准化,开发者可直接用于下游机器学习流程,但建议对缺失率较高的low和high列进行插补或排除。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年2月7日首次发布,并由Electric Sheep Africa机构重新整理为机器学习就绪格式。其核心研究问题聚焦于几内亚(GIN)第一级行政单位的健康指标历史演变,涵盖平均BMI、青少年死亡率、人均酒精消费等关键公共卫生变量。作为人道主义与发展领域的重要数据资源,该数据集为非洲健康趋势分析、政策评估及预测建模提供了标准化、可复用的结构化数据,填补了该地区在时间序列健康数据上的空白,对全球健康研究和可持续发展目标监测具有显著影响力。
当前挑战
该数据集面临的核心挑战在于:1)所解决的领域问题——整合分散的WHO历史健康记录,克服原始数据在行政单位层级上的不一致性和时间跨度差异(1961-2025年),以实现对几内亚健康状况的机器学习分类与回归分析;2)构建过程中的挑战——包括处理近20%的缺失值(如low和high列缺失率高达34.4%)、统一多来源数据的编码标准(如地域代码、性别维度),以及自动化清洗无法修正的原始报告偏差和采样误差,需在后续建模中谨慎对待数据质量限制。
常用场景
经典使用场景
在公共卫生与流行病学研究中,africa-who-historical-data-for-gin数据集被广泛用于构建时间序列预测模型,以分析几内亚地区健康指标的长期演变趋势。该数据集汇集了世界卫生组织自1961年以来的历史数据,涵盖体质指数均值、青少年死亡率及人均酒精消费量等关键变量,为研究者提供了行政区域层面的观测样本。借助这些结构化数据,研究者能够训练回归模型,预测主要健康指标的未来走向,从而评估不同干预措施在区域健康治理中的潜在效能。
解决学术问题
该数据集有效解决了西非地区长期健康数据稀疏性与碎片化带来的研究困境。传统上,由于数据采集成本高、标准化程度低,学者难以对几内亚等低收入国家的健康转型历程进行系统性量化分析。africa-who-historical-data-for-gin通过统一清洗与格式转换,提供了长达六十余年的连续观测记录,使得跨时期、跨行政区的比较研究成为可能。其发布极大推动了开发经济学与全球健康领域关于流行病学转变、健康不平等及政策干预效果评估的实证研究进程。
实际应用
在实际应用中,该数据集为人道主义援助机构和非政府组织提供了精准的数据基础,用于监测几内亚各地健康状况的分布差异与突发变化。通过分析该数据集的数值指标,决策者可以快速识别健康脆弱区域,优化卫生资源分配,并评估减贫与公共卫生项目的实际成效。此外,结合交互式可视化工具,数据集也被用于构建健康预警系统,帮助国际组织提前预判疫情反弹或营养不良高峰等潜在危机。
数据集最近研究
最新研究方向
在非洲公共卫生数据日益成为全球关注焦点的背景下,该数据集聚焦于几内亚历史健康指标的整合与机器学习友好型转化,为预测性建模与时空流行病学分析提供了关键基础。当前前沿研究多借助此类结构化数据,探索区域健康不平等、慢性病负担演变及突发卫生事件的早期预警系统,尤其结合世界卫生组织发布的BMI、青少年死亡率与酒精消费等指标,能够揭示社会经济与环境因素对健康状况的动态影响。该数据集经过去重、类型转换与标准化的精细清洗流程,显著提升了多源异构人文数据在监督学习任务中的可用性,为非洲本地化健康决策支持系统的发展注入了实证动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作