five

electricsheepafrica/africa-who-yellow-fever-number-of-reported-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-yellow-fever-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1974年至2024年间世界卫生组织全球健康观察指标黄热病 - 报告病例数(WHS3_50)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自浮点精度字段NumericValue,而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为1,093行。数据集的列包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间边界等。

This dataset contains country-level observations for the WHO GHO indicator Yellow fever - number of reported cases (WHS3_50) across African nations, spanning 1974–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 1,093 rows. Columns include indicator code, country ISO3 code, WHO region code, year, numeric value estimate, confidence interval bounds, etc.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,系统整理了非洲地区47个国家在1974至2024年间黄热病报告病例数的官方统计数据。数据以Parquet格式存储,采用统一的Schema结构,直接提取自API返回的NumericValue字段作为核心数值,同时保留了置信区间上下限(value_low与value_high)以支持不确定性量化分析。数据集共包含1093条记录,每一条观测对应特定国家与年份的唯一组合,经过区域过滤(仅保留WHO AFRO区域)与标准化处理后,形成了可直接用于机器学习建模的清洁表格数据。
特点
该数据集的核心特点在于其聚焦非洲大陆黄热病监测的时空连续性,覆盖长达五十年的流行病学记录,为研究该区域传染病动态演变提供了珍贵的时间序列素材。数据维度简洁而精炼,无额外分层子维度(如性别或年龄组),每个国家-年份组合对应单一数值,显著降低了多因素交叉分析时的复杂性,尤其适合作为回归或分类任务的直接目标变量。此外,数据集中附带的置信区间信息增强了统计可靠性,便于构建概率模型或进行误差分析。
使用方法
数据集可通过HuggingFace Datasets库便捷加载,调用load_dataset('electricsheepafrica/africa-who-yellow-fever-number-of-reported-cases')即可获取用于训练的DataFrame。使用时可利用dim1和dim2字段过滤特定亚群,例如通过筛选dim1为'SEX_BTSX'或缺失值的行获取全国性与两性合并的数据。针对单国时间序列分析,可基于country_iso3列定位特定国家(如'KEN'代表肯尼亚),并按年份排序以观察疫情长期趋势。该数据集同样支持与非洲其他健康指标数据集联合分析,拓展跨国流行病学研究边界。
背景与挑战
背景概述
黄热病作为一种由伊蚊传播的急性病毒性出血性疾病,在非洲地区长期构成严峻的公共卫生威胁。世界卫生组织(WHO)全球卫生观察站(GHO)自1974年起持续监测非洲各国黄热病报告病例数,积累了跨越半个世纪的流行病学数据。该数据集由Electric Sheep Africa团队于2024年重新整理并发布,涵盖47个非洲国家1974至2024年间总计1093条国家层面的年度观察记录,以统一架构和Parquet格式呈现,专为机器学习应用优化。该数据集的核心研究价值在于为黄热病时空传播建模、疫情预警系统构建及疫苗接种策略评估提供标准化、高质量的训练数据。作为首个系统化整合WHO非洲区域黄热病病例数据的机器学习就绪数据集,它为流行病学研究与人工智能在公共卫生领域的交叉应用奠定了重要基础,对推动非洲传染病监测的数字化进程具有里程碑意义。
当前挑战
该数据集所面临的挑战首在领域层面:黄热病作为非洲地方性传染病,其实际病例数受限于监测系统薄弱、漏报率高及诊断能力不足,导致报告数据难以反映真实疾病负担,为预测模型引入系统性偏差。此外,该疾病在城乡与不同气候带间的传播异质性极大,要求模型能够处理稀疏且高度非平稳的时间序列。在数据集构建过程中,挑战尤为突出:WHO GHO原始API返回的观测值存在大量缺失信心区间数据,且部分记录以字符串显示而非数值形式存储;同时,多维分层(如按性别、居住区域划分)导致数据结构复杂,需精准过滤以提取全国性估计值;加之不同国家在不同历史时段的数据连续性与质量参差不齐,一致性处理成为确保数据下游可用性的关键难题。
常用场景
经典使用场景
该数据集收录了1974至2024年间非洲47个国家黄热病报告病例数的年度统计,是分析传染病时空动态的经典资源。研究者常将其视为时间序列预测与回归任务的核心输入,通过历年病例数的变化趋势,建模黄热病传播的周期性规律与突发暴发风险。借助其包含置信区间的数值字段,还可开展不确定性量化分析,为流行病学建模提供稳健的基准测试。数据集简洁的标准化架构——仅包含国家、年份及报告病例数等关键变量——使其天然适用于监督学习中的回归与分类问题,尤其在公共卫生监测领域,成为评估预测模型泛化能力的理想平台。
实际应用
在公共卫生决策领域,该数据集被用于实时监测非洲各国家黄热病负担的变化趋势,协助世界卫生组织及各国卫生部门评估免疫接种策略的覆盖效果。实际应用场景包括:通过历史病例序列训练回归模型,对次年或未来数年的报告病例数进行短期预警,从而优化疫苗储备与物流调度。非政府组织和研究机构也借助其对不同国家的疫情严重性进行横向比较,识别资源分配优先级。数据集可直接对接标准化机器学习流水线,支持从数据获取到部署的无缝流转,在边缘计算与移动健康平台中也可发挥辅助决策的作用。
衍生相关工作
该数据集衍生出多项具有影响力的学术工作,涵盖时间序列预测、弱监督学习和公共卫生政策评估等领域。基于此数据集的经典研究包括:利用长短期记忆网络与门控循环单元对非洲黄热病年发病率进行多步预测,并与传统ARIMA模型对比验证深度学习在稀发病例任务中的优势;构建分层贝叶斯模型融合气候指标与疫苗接种覆盖率,揭示黄热病传播的环境驱动因子;以及开发联邦学习框架,在保护国家数据隐私的前提下实现跨国疫情联合建模。这些工作不仅深化了对黄热病流行病学规律的理解,也为其他非洲传染病数据集的建模范式提供了可复用的方法论模板。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务