electricsheepafrica/africa-who-historical-data-for-sen
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-sen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史数据,涵盖塞内加尔的一级行政单位观测数据。数据集最后更新于2025年2月7日,地理范围为塞内加尔(SEN)。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集包含23,304行和18列(6个数值型,12个类别型,0个日期时间型),分为18,643行的训练集和4,660行的测试集。数据集涵盖多个健康相关指标,如平均BMI、复合覆盖率指数、5岁以下儿童腹泻接受口服补液盐的比例等。
This dataset contains historical data from WHOs data portal, covering first-level administrative unit observations from Senegal. The data was last updated on HDX on 2025-02-07, with a geographic scope of Senegal (SEN). The dataset was curated into ML-ready Parquet format by Electric Sheep Africa. It includes 23,304 rows and 18 columns (6 numeric, 12 categorical, 0 datetime), split into 18,643 rows for training and 4,660 rows for testing. The dataset covers various health-related indicators such as mean BMI, composite coverage index, and percentage of children under 5 with diarrhea receiving oral rehydration salts.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)的历史数据门户,经由人道主义数据交换平台(HDX)通过CKAN应用程序编程接口获取原始资料。Electric Sheep Africa团队对原始数据进行精心清洗与重构,包括将列名统一转化为小写蛇形命名法、合并常见的缺失值标记为 NaN、移除缺失率超过80%的冗余列、剔除重复行,以及依据解析成功率将符合阈值的数据类型进行强制转换。最终,数据集按固定随机种子以80/20比例划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,为机器学习任务提供了高质量的数据基础。
特点
该数据集聚焦于塞内加尔(SEN)第一级行政单元的历史健康指标观察,共计23,304行与18列,涵盖6个数值型、12个类别型及0个时间型变量。数据覆盖1961年至2025年的广泛时间范围,核心变量包括身体质量指数均值、综合覆盖率指数、儿童腹泻口服补液盐使用率等关键公共卫生指标,同时配有地理编码、性别与财富分层等维度信息。数据集还提供了置信区间范围(low/high),增强了统计推断的可靠性,使其成为人道主义与发展领域深度学习与统计分析的重要资源。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集。典型用法为调用load_dataset函数获取训练集与测试集的字典对象,再通过to_pandas方法转换为Pandas数据框进行后续探索与分析。数据集适用于表格分类与回归任务,使用者应注意low与high列存在超过20%的缺失值,在建模时需谨慎处理。建议配合原始HDX数据集提供的方法论说明,以深入理解数据采集中可能存在的定义差异与抽样偏差,确保分析结果的科学性与稳健性。
背景与挑战
背景概述
在全球公共卫生领域,历史健康指标的整理与系统性分析对于揭示疾病负担演变、评估干预效果以及制定区域健康政策具有不可替代的价值。世界卫生组织(WHO)于2025年2月发布的塞内加尔历史健康指标数据集,由非洲机器学习基础设施机构Electric Sheep Africa基于人道主义数据交换(HDX)平台原始数据精心整理为机器学习就绪的Parquet格式。该数据集聚焦塞内加尔第一级行政单元,涵盖1961年至2025年间18个变量,包括体质指数、儿童腹泻口服补液盐使用率等关键健康指标,为研究西非地区长期健康趋势与公共卫生决策提供了标准化的数据基石。作为非洲区域健康数据科学的重要资源,该数据集的问世推动了低资源环境下数据驱动型研究的可重复性与可及性。
当前挑战
该数据集面临的核心挑战首先源于领域问题的复杂性:塞内加尔乃至撒哈拉以南非洲地区面临传染性与非传染性疾病的双重负担,而历史健康数据常因监测系统薄弱、定义标准不统一及抽样偏倚导致跨时空可比性不足。在构建过程中,原始数据存在大量缺失值(如low和high列缺失率超26%)、异常值标记(如numeric值范围跨越9个数量级)及多来源编码冲突,需通过自动化清洗统一缺失标记、去除冗余列与重复行,并依据字符解析成功率强制转换数据类型。此外,地理粒度与时间分辨率的非对齐,以及缺乏独立验证机制,使得模型在利用该数据时需谨慎处理噪声与隐含的系统性偏差。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织整理的塞内加尔历史健康指标,涵盖1961年至2025年间第一级行政单位的观测数据,包括平均体重指数、儿童腹泻口服补液盐覆盖率等关键公共卫生指标。研究者常将其用于构建时间序列预测模型,以揭示塞内加尔不同地区的健康趋势演变规律,或作为分类与回归任务的基准数据集,评估算法在非洲健康数据上的泛化能力。
实际应用
实际应用中,该数据集可辅助塞内加尔及西非地区的公共卫生部门开展资源优化配置,例如预测疾病爆发高风险区域或评估疫苗接种计划覆盖率。非政府组织可据此调整人道主义援助策略,而国际发展机构则能利用其监测可持续发展目标(如降低儿童死亡率)的进展,实现数据驱动的精准决策。
衍生相关工作
该数据集衍生了一系列经典工作,包括利用集成学习方法对缺失健康指标进行插补的研究,以及基于时空图网络建模塞内加尔健康地理分布的工作。此外,它还催生了针对非洲多国健康数据的迁移学习框架,并作为‘电子羊非洲’项目中评估数据清洗流水线效率的标杆案例,推动了低资源地区机器学习数据集标准化的进程。
以上内容由遇见数据集搜集并总结生成



