five

electricsheepafrica/africa-who-mumps-number-of-reported-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mumps-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲各国世界卫生组织全球健康观察指标“腮腺炎 - 报告病例数”(WHS3_53)的国家级观察数据,时间跨度为1999年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于世界卫生组织全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Mumps - number of reported cases" (WHS3_53) across African nations, spanning 1999–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家报告的腮腺炎病例数量(指标代码WHS3_53)。数据经过系统化采集与重构,以Parquet文件格式存储,并统一采用浮点型数值字段(NumericValue)作为核心指标值,同时保留置信区间边界(value_low, value_high)以增强统计严谨性。作为Electric Sheep Africa系列的一部分,该数据集实现了跨非洲国家的标准化结构,确保机器学习任务的无缝整合。
特点
数据集涵盖1999年至2024年间42个非洲国家的404条观测记录,所有条目均归属WHO非洲区域(AFR)。其显著特点在于无子维度分层,每个国家-年份组合仅对应单一观测值,简化了分析复杂度。此外,清晰的数据模式包含指示代码、国家ISO代码、年份、数值及置信区间等字段,并辅以上次更新时间戳,为时间序列分析和地域对比提供了可靠且一致的数据基础。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,例如使用load_dataset函数获取训练集并转换为Pandas DataFrame进行后续处理。针对性别或居住地等分层维度,可通过过滤dim1字段(如以_BTSX结尾的条目)提取全国性总数据。对于特定国家的时间序列分析,可依据country_iso3字段筛选并排序年份,如对肯尼亚数据执行过滤与排序操作,便于建模与可视化研究。
背景与挑战
背景概述
流行性腮腺炎作为一种由腮腺炎病毒引发的急性呼吸道传染病,在全球公共卫生领域长期受到关注,尤其是在疫苗接种覆盖率不均衡的非洲地区。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2024年创建,经Electric Sheep Africa团队重新整理后发布,旨在提供1999年至2024年间42个非洲国家的腮腺炎报告病例数。核心研究问题聚焦于量化非洲大陆腮腺炎的时空分布特征,为传染病监测、疫苗策略评估及区域卫生规划提供数据支撑。凭借其统一架构和机器学习就绪的Parquet格式,该数据集填补了非洲卫生领域结构化时序数据的空白,对流行病学建模、公共卫生决策支持以及相关AI应用具有重要推动力。
当前挑战
该数据集所解决的领域问题在于,非洲地区腮腺炎报告病例的系统性缺失和不一致性严重制约了疾病负担的准确估算。数据稀疏性及报告偏倚构成了首要挑战,由于医疗基础设施差异和监测能力薄弱,许多年份与国家的记录存在大量空缺。构建过程中,从WHO OData API抽取并整合多源异构数据时,需应对不同国家在报告标准、时间粒度及编码体系上的不一致性。此外,缺失值的标注、置信区间(value_low, value_high)的完整性维护,以及确保数据在机器学习任务中的可用性与可解释性,均为技术难点。最终,数据仅有404条记录且覆盖跨度长,使得时序分析和预测模型面临过拟合与泛化能力受限的严峻考验。
常用场景
经典使用场景
在非洲公共卫生监测与流行病学研究中,该数据集最经典的用途是服务于流行性腮腺炎发病趋势的纵向分析。研究者依托1999至2024年间覆盖42个非洲国家的年度报告病例数,可构建跨时空的疾病负担画像,评估各国在消除疫苗可预防疾病进程中的阶段性成效。其结构化的单值指标设计尤其适配于监督学习任务中的回归与分类场景,例如基于历史病例数据预测未来疫情峰值,或对国家级别的高风险区域进行分层识别。
解决学术问题
该数据集旨在解决非洲地区流行性腮腺炎系统监测数据碎片化与可获取性不足的学术困境。通过整合WHO全球卫生观察站数据并以标准化Parquet格式开放,它使研究者能够量化分析疫苗接种策略对病例数下降的因果效应,填补了低收入国家在疫苗可预防疾病流行病学建模中的证据空白。其影响在于为全球卫生治理提供了区域级决策锚点,推动世界卫生组织‘2030年消除腮腺炎’目标的循证评估。
衍生相关工作
该数据集已衍生出若干关键学术工作。其中,有研究将其与WHO其他传染病指标联合训练,开发出泛非洲疫苗可预防疾病综合监测模型,以迁移学习方式提升数据稀疏国家的预测稳健性。另一项工作利用该数据集的时间序列特性,通过门控循环单元(GRU)网络揭示腮腺炎传播的季节性规律,验证了与降水量的显著相关性。此外,该数据集常被用作基准测试集,检验对比不同缺失值插补算法在卫生统计中的有效性。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务