five

electricsheepafrica/africa-who-rubella-number-of-reported-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-rubella-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1999年至2024年期间世界卫生组织全球健康观察指标风疹报告病例数(WHS3_57)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Rubella - number of reported cases (WHS3_57) across African nations, spanning 1999–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲大陆47个国家的风疹报告病例数(指标代码WHS3_57)。数据覆盖1999年至2024年间共计918条观测记录,均为WHO非洲区域(AFR)成员国的国别年度数据。原始数据经过规范化处理,以Parquet格式存储,并采用统一的字段模式。所有数值均提取自API返回的浮点精度字段NumericValue,而非显示字符串;同时,在可获得的情况下,亦保留了置信区间上下限(value_low与value_high)。这些数据由Electric Sheep Africa团队整合为机器学习就绪的数据集,便于科研人员直接用于建模分析。
特点
该数据集的核心特点在于其高时效性与地理聚焦性,涵盖了近25年间非洲47个国家的风疹病例报告情况,具有丰富的纵向比较价值。数据不包含子维度分层,每个国家每年对应唯一观测值,简化了时间序列分析的复杂度。模式内包含指示符编码、国家ISO代码、年份、数值估计及置信区间等12项字段,其中value_numeric字段可直接作为回归或分类任务的目标变量。此外,数据集还提供了数据最新更新时间戳,便于用户判断信息的时效性。整体而言,这是一个结构清晰、规模适中(不足千行)的公共卫生指标数据集。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用load_dataset("electricsheepafrica/africa-who-rubella-number-of-reported-cases")命令即可获取训练集。加载后,可将数据转换为pandas DataFrame进行后续分析。若需获取全国层面且不区分性别的数据,可通过筛选dim1字段中后缀为'_BTSX'或为空的行来实现。此外,用户亦可按国家ISO代码筛选特定国家的时序数据,例如以df[df["country_iso3"] == "KEN"].sort_values("year")获取肯尼亚的年度病例数。数据集支持多任务场景,如用于回归预测病例数量或基于模式进行区域分类学习。
背景与挑战
背景概述
风疹作为一种可通过疫苗预防的病毒性传染病,其监测对于全球消除计划至关重要。该数据集由世界卫生组织全球卫生观测站于2024年发布,经Electric Sheep Africa团队重新打包后纳入其统一化的非洲数据集合,核心研究问题聚焦于量化非洲大陆风疹报告病例的时空分布特征。数据集覆盖1999至2024年间47个非洲国家的918条观测记录,为区域流行病学研究、疫苗接种策略评估及疾病负担建模提供了标准化且可直接用于机器学习的结构化数据资源。凭借其与WHO官方数据源的一致性、清晰的指标定义以及涵盖置信区间等统计细节,该数据集显著降低了卫生数据在人工智能应用中的获取门槛,有力推动了非洲传染病监测领域的计算流行病学发展。
当前挑战
该领域面临的首要挑战在于风疹病例的漏报与低报告率,许多非洲国家受限于薄弱的卫生监测体系,致使实际发病与上报数据之间存在系统性偏差,可能误导基于数据集训练的预测模型及政策决策。其次,构建过程中需应对跨时间维度和国家层面的数据一致性问题,包括不同时期诊断标准变迁、数据缺失模式的多样性以及WHO OData API接口返回的原始字段(如置信区间)不总是完整可用,这对数据清洗与质量评估提出了严苛要求。此外,数据集缺乏年龄、性别等关键人口学分层维度,限制了对风疹传播动态更精细的建模能力,制约了针对特定高风险亚群的分析深度。
常用场景
经典使用场景
该数据集的核心用途在于为非洲地区风疹病例报告数量的时间序列分析与跨国家比较提供结构化、机器就绪的数值型数据。研究人员可基于47个非洲国家1999至2024年间连续观测的风疹报告病例数,开展疾病负担的纵向追踪、疫情暴发模式识别及区域卫生系统监测能力的评估。数据集以国家-年份为粒度,提供了点估计值及置信区间,便于构建回归模型以预测病例趋势,或作为分类任务中的标签,分析高发与低发国家间的差异化特征。同时,其整洁的Parquet格式与统一的模式设计,使得数据可直接嵌入机器学习管道,显著降低了从原始WHO全球卫生观测站API获取数据后的清洗与整合成本。
解决学术问题
在公共卫生与流行病学学术研究中,该数据集直接回应了非洲大陆风疹疫情系统性监测数据匮乏的困境,解决了因数据零散、格式不一导致的跨学科整合难题。它使研究者能够定量刻画风疹在非洲地区的时空分布格局,探究病例波动与气候、疫苗接种覆盖率、人口流动性等潜在驱动因子之间的关联,从而补足了对该地区风疹消除进展评估的关键证据链。通过提供长时序、多国别的标准化报告病例数据,该数据集为验证传染病动力学模型、评估世界卫生组织消除风疹目标的区域性推进成效,以及识别数据报告质量偏低的国家与年份提供了坚实的数据基础,进而推动形成更精准的区域防控策略。
衍生相关工作
该数据集的发布催生了一系列衍生研究工作,其中最为典型的是将其纳入非洲多病种联合监测分析框架,与麻疹、脊髓灰质炎等疫苗可预防疾病的报告数据共同构建综合疾病负担评估模型。此外,已有研究基于此数据结合地理人口统计信息,训练时间序列预测算法(如Prophet、LSTM网络),探索风疹病例的短期预报方法,从而为预警系统提供智能支持。另有工作将其作为基准数据集,评估不同插值技术对非洲国家级疫情数据缺失值的填补效果,比较传统统计方法与深度学习模型在稀疏数据情景下的鲁棒性,推动了针对低资源区域流行病学数据质量改进的方法学创新。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务