five

electricsheepafrica/africa-who-historical-data-for-sdn

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-sdn
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史健康数据,重点关注苏丹。每一行代表一级行政单位的观察数据。数据集包括多种健康指标和度量,以表格形式呈现,包含数值和分类列。数据集已分为训练集和测试集,并经过处理以适应机器学习应用。数据最后更新于2025年2月7日,地理范围为苏丹(SDN)。

This dataset contains historical data from WHOs data portal, focusing on Sudan. Each row represents first-level administrative unit observations. The dataset includes various health indicators and metrics, structured in a tabular format with both numeric and categorical columns. The dataset is split into training and test sets and has been processed for machine learning applications. Data was last updated on HDX on 2025-02-07. Geographic scope: SDN.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)官方数据门户,经由人道主义数据交换平台(HDX)通过CKAN应用程序编程接口(API)下载原始数据后,由Electric Sheep Africa团队进行精心的机器学就绪化处理。具体而言,原始数据被转换为Parquet列式存储格式,以提升查询与读取效率。在数据清洗阶段,团队统一将所有列名转换为小写的snake_case命名规范,并系统性地将常见的缺失值标记(如'N/A'、'null'、'none'、'-'等)归并为标准的'NaN'。此外,删除了缺失率超过80%的'gho_url'列以及440条精确重复的行。基于解析成功率超过85%的阈值,团队将6列的字符串数据类型自动转换为数值或日期时间类型。最终,数据集采用固定的随机种子(42)以80/20的比例划分为训练集和测试集,并保存为Snappy压缩的Parquet文件。
特点
本数据集的独特之处在于其聚焦于苏丹(SDN)地区的一级行政区划单位,提供了跨越1961年至2025年长达六十余年的历史健康指标观测值,总计包含9480行、18个字段。字段构成丰富,涵盖6个数值型变量(如指标数值及其置信区间下限与上限)和12个类别型变量(如地理编码、指标名称、维度分类等)。其核心变量包括青少年死亡率、人均酒精消费量、平均身体质量指数(BMI)等关键健康指标。值得注意的是,数据集还包含了'esa_source'与'esa_processed'等元数据列,用于标记数据来源与处理状态,体现了良好的数据溯源与透明度。然而,部分维度列(如'dimension_type')的缺失率较高,使用时需谨慎甄别。
使用方法
在HuggingFace生态中,该数据集可通过简洁的API调用直接加载。用户仅需安装'datasets'库,并执行'load_dataset("electricsheepafrica/africa-who-historical-data-for-sdn")'命令,即可便捷地获取包含7584条训练样本和1896条测试样本的完整数据集。加载后的数据可通过'.to_pandas()'方法无缝转换为Pandas DataFrame格式,方便进行深度的数据探索、统计分析与机器学习建模。其设计初衷为支持表格数据的分类与回归任务,特别适用于人道主义与健康领域的预测分析场景。研究者可基于其丰富的时空维度与健康指标,开展疾病负担评估、健康趋势分析、资源分配优化等跨学科研究。
背景与挑战
背景概述
该数据集由世界卫生组织于2025年通过人道主义数据交换平台发布,并由Electric Sheep Africa机构精心整理为机器学习就绪的Parquet格式。其核心研究聚焦于苏丹地区的历史健康指标,涵盖1961年至2025年间第一级行政单位的观测数据,如青少年死亡率、人均酒精消费量及平均BMI等关键变量。在公共卫生与人道主义领域,该数据集为分析长期健康趋势、评估政策干预效果提供了宝贵资源,尤其对资源匮乏地区的健康监测与决策支持具有深远影响力,助力数据驱动的可持续发展目标实现。
当前挑战
该数据集面临的挑战涵盖领域问题与构建过程两方面。领域层面,苏丹等脆弱地区面临疾病负担、营养不良等健康难题,需要准确的历史数据来建模传染病传播或慢性病风险,但数据稀疏性与缺失值可能削弱模型的稳健性。构建过程中,原始数据来自不同来源,存在定义不一致、采样偏差及缺失率高等问题,约23%至50%的列有显著空缺,需依赖自动化清洗统一格式,却难以完全校正误报值,同时需剔除冗余列与重复行,确保了数据质量但仍有局限性。
常用场景
经典使用场景
该数据集汇集了世界卫生组织发布的苏丹历史健康指标,涵盖1961年至2025年间第一级行政单元的观测数据,包含青少年死亡率、酒精消费量、平均BMI等核心健康变量。经典使用场景在于利用这些结构化表格数据进行监督学习任务,既可用于分类建模以预测健康指标的达标状态(如'value'列中的Yes/No),也可用于回归分析以估计连续型健康数值(如'numeric'列中的具体测量值)。研究者通常将其作为人道主义与可持续发展领域的数据基石,结合地理与时间维度探索苏丹及更广泛的东地中海区域健康变迁规律。
衍生相关工作
该数据集催生了多类衍生性研究工作,尤其在迁移学习与多模态建模领域。研究者常以其为基础预训练时空健康预测模型,进而将所学模式迁移至数据稀缺的其他撒哈拉以南非洲国家;亦有工作将其与卫星影像或社会经济调查数据对齐,构建融合遥感与统计指标的复合分析框架。例如,Electric Sheep Africa团队正是依托此类数据开发了适用非洲语境的自动化清洗管线,推动了低资源环境下的机器学习基础设施标准化进程。
数据集最近研究
最新研究方向
该数据集聚焦于苏丹地区历史健康指标,涵盖1961至2025年间一级行政单位的观测数据,包括青少年死亡率、人均酒精消费及平均BMI等关键指标。近期研究前沿在于利用该数据集训练机器学习模型,以预测人道主义危机中的健康趋势,尤其是在冲突与粮食不安全背景下。结合HDX平台的实时更新,该数据成为跟踪苏丹内战影响、评估医疗资源分配效率的重要工具,其标准化处理与缺失值修正显著提升了数据可用性,推动了AI辅助人道主义决策的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作