five

electricsheepafrica/africa-who-historical-data-for-lbr

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-lbr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史数据,重点关注利比里亚的一级行政单位观察数据。数据集最后更新于2025年2月7日,包含10,849行数据,分为8,679行的训练集和2,169行的测试集。数据涵盖了多种健康指标,如平均BMI、青少年死亡率、酒精消费量等,并包含地理、结果测量、标识符/元数据等多类变量。数据集已由Electric Sheep Africa处理为适合机器学习的格式。

This dataset contains historical data from WHOs data portal, focusing on first-level administrative unit observations in Liberia. The dataset was last updated on HDX on 2025-02-07 and includes 10,849 rows, split into 8,679 training and 2,169 test rows. It covers various health indicators such as mean BMI, adolescent mortality rate, alcohol consumption, and includes variables like geographic, outcome/measurement, identifier/metadata, and others. The dataset has been processed into ML-ready format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织官方门户,经由人道主义数据交换平台获取原始数据后,由Electric Sheep Africa团队采用CKAN API完成数据爬取,并统一转换为Parquet格式以适配机器学习流程。在数据清洗阶段,列名被标准化为小写蛇形命名法,常见缺失值标记(如N/A、null、unknown等)被统一替换为NaN,同时移除了缺失率超过80%的gho_url列以及88行完全重复的记录。基于解析成功率超过85%的阈值,将6个字符串列转换为数值或日期类型。最终,数据集以固定随机种子(42)按照80/20比例划分为训练集和测试集,并存储为Snappy压缩的Parquet文件。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,代码简洁高效,仅需调用load_dataset函数即可获取训练集与测试集,并支持一键转换为Pandas DataFrame进行深入分析。该数据集适用于表格分类与回归任务,可用于预测健康指标趋势、评估公共卫生干预效果或构建风险预警模型。使用时需注意,部分地理和维度字段包含HXL标签(如#region+code),可结合人道主义数据交换标准进行交叉分析。数据已按比例预拆分,便于直接投入建模流程,无需额外处理。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年发布,经Electric Sheep Africa团队整理为机器学习就绪格式,聚焦利比里亚(LBR)的一级行政单位历史健康指标。数据集涵盖1961年至2025年间超过10,000条观测记录,包含体重指数、青少年死亡率、人均酒精消费等关键公共卫生变量。作为非洲人道主义与发展数据领域的重要资源,它填补了该地区长期健康指标系统化整理的空白,为研究西非公共卫生变迁、评估干预措施效果提供了结构化数据基础,尤其对理解利比里亚在复杂社会背景下的人口健康动态具有深远意义。
当前挑战
该数据集面临多重挑战。在领域问题上,其核心服务于预测与分类任务,但原始数据源自WHO的历史报告,存在定义不一致、报告偏倚或抽样偏差,限制了模型泛化能力。构建过程中,数据清洗面临巨大挑战:近21%的维度列(如性别、财富分位数)和39%的置信区间列(low/high)存在缺失值;原始数据经自动化流程转换,可能未能修正误报数值或潜在的系统性错误。此外,地理范围仅限利比里亚,样本量有限(约1万行),且未包含时空关联特征,难以捕捉疫情爆发或政策干预导致的非线性健康变迁。
常用场景
经典使用场景
利比里亚历史健康指标数据集汇聚了世界卫生组织自1961年至2025年间在利比里亚一级行政单位观测的详尽健康数据,涵盖平均体质指数、青少年死亡率、人均酒精消费量等关键指标。该数据集最经典的使用场景在于构建时空维度的健康指标预测模型,研究者可借助其丰富的数值特征与类别特征,分析健康指标随年份与人口维度的演变规律,从而揭示公共卫生干预措施在不同行政区域的长效影响。
解决学术问题
该数据集有效解决了非洲地区长期面临的高质量健康数据稀缺问题,为量化流行病学研究和卫生政策评估提供了标准化、可复现的数据基础。学术研究中,它常用于探讨社会经济地位与健康结局之间的关联,以及性别、财富阶层等变量对健康差异的调节作用。自发布以来,该数据集显著推动了区域内健康不平等问题的实证分析,并为全球健康治理中的循证决策提供了重要的定量支撑。
实际应用
在实际应用层面,该数据集被广泛用于人道主义救援与公共卫生监测系统。非政府组织和国际机构借助其中一氧化碳水平、营养状况等指标,实时追踪疫情暴发后的健康态势,优化资源配置。此外,它还被整合进非洲大陆的机器学习预测平台,用于预警儿童死亡率异常波动,辅助制定地区性的健康干预优先级,提升应急响应效率,从而切实改善脆弱人群的健康福祉。
数据集最近研究
最新研究方向
该数据集聚焦于利比里亚历史健康指标,近期研究主要围绕运用机器学习模型对全球健康指标进行预测与归因分析。通过整合世界卫生组织官方发布的行政单位层级观测数据,研究热点包括利用时序分析探索1961年至2025年间青少年死亡率、人均酒精消费量及平均BMI的演变规律,结合地理编码数据揭示区域健康不平等现象。该数据集的标准化处理与开放获取特性,为非洲地区人道主义援助决策提供了可复用的数据基础,尤其在疫情后全球健康监测体系重构的背景下,为检验公共卫生干预措施的有效性提供了量化工具,推动数据驱动的发展政策制定。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作