COVID-19 dataset in Poland

github2023-12-11 更新2024-05-31 收录

下载链接：

https://github.com/mkdirer/Multivariate-Time-Series-Forecasting-Using-Transformers

下载链接

链接失效反馈

官方服务：

资源简介：

该项目使用了一个与波兰COVID-19相关的数据集，选择了新病例、总测试数、新恢复数和活跃病例等特定参数进行建模和预测。

This project utilizes a dataset related to COVID-19 in Poland, selecting specific parameters such as new cases, total tests, new recoveries, and active cases for modeling and prediction.

创建时间：

2023-09-26

原始信息汇总

数据集概述

数据集名称

Multivariate Time Series Forecasting Using Transformers

数据集内容

该数据集用于开发基于Transformer的神经网络，以预测波兰COVID-19相关的多变量时间序列数据。

数据准备

数据预处理包括移除不必要列、处理缺失数据及使用Min-Max Scaler进行数据缩放。
选定的参数包括新病例、总测试数、新康复数和活跃病例。

模型架构

模型采用Transformer架构，包括Time2Vector层、自注意力机制（SingleAttention和MultiAttention）及TransformerEncoder。

数据分割方法

使用了三种不同的数据分割方法：K-Fold交叉验证、时间序列分割和块状时间序列分割。

模型评估

评估指标包括均方误差(MSE)、平均绝对误差(MAE)、决定系数(R^2)、一致性指数和平均绝对百分比误差(MAPE)。

模型训练

模型训练了50个epoch，基于验证数据表现保存最佳版本。

研究结论

研究表明，Transformer在模拟复杂时间模式（如长期依赖和非线性趋势）方面更为灵活，而LSTM网络在捕捉局部依赖和序列时间模式方面更有效。

搜集汇总

数据集介绍

构建方式

该数据集围绕波兰的COVID-19疫情数据构建，涵盖了新增病例、总检测数、新增康复病例以及活跃病例等关键参数。数据预处理阶段，通过移除冗余列、处理缺失值以及使用Min-Max Scaler进行数据标准化，确保了数据的完整性与一致性。数据集的构建旨在支持多元时间序列预测任务，特别适用于基于Transformer架构的深度学习模型。

特点

该数据集的特点在于其多元时间序列属性，能够捕捉COVID-19疫情在波兰的复杂动态变化。数据集中包含的时间序列信息不仅反映了疫情的短期波动，还揭示了长期趋势与非线性模式。此外，数据经过精心预处理，确保了高质量输入，适用于多种机器学习与深度学习任务。数据集的多维度特性使其成为研究时间序列预测与疫情动态建模的理想选择。

使用方法

该数据集的使用方法主要围绕多元时间序列预测任务展开。用户可以通过K-Fold交叉验证、时间序列分割以及块状时间序列分割等方法对数据进行划分，以评估模型的泛化能力。数据集适用于基于Transformer架构的深度学习模型，用户可通过Keras库定义并训练模型，利用自注意力机制捕捉数据点间的依赖关系。模型评估可采用均方误差、平均绝对误差、决定系数等指标，以全面衡量预测性能。

背景与挑战

背景概述

COVID-19疫情在全球范围内引发了广泛关注，波兰作为欧洲的重要国家之一，其疫情数据的收集与分析对公共卫生政策的制定具有重要意义。该数据集由Łukasz Wajda、Michał Orlewski和Przemysław Rewiś等研究人员于2020年创建，旨在通过多变量时间序列数据预测COVID-19在波兰的传播趋势。数据集涵盖了新增病例、总检测数、新增康复病例和活跃病例等关键指标，为研究人员提供了丰富的数据基础。该数据集不仅为波兰的疫情研究提供了重要支持，也为全球范围内的疫情预测模型开发提供了参考。

当前挑战

该数据集在应用过程中面临多重挑战。首先，COVID-19数据的动态性和不确定性使得时间序列预测的准确性难以保证，尤其是在疫情初期数据波动较大的情况下。其次，数据预处理阶段需要处理缺失值和异常值，这对模型的鲁棒性提出了较高要求。此外，多变量时间序列数据的复杂性要求模型能够捕捉变量之间的非线性关系，这对传统机器学习方法提出了挑战。最后，尽管Transformer架构在捕捉长期依赖关系方面表现出色，但其计算复杂度较高，训练时间和资源消耗较大，这对实际应用中的可扩展性提出了挑战。

常用场景

经典使用场景

在COVID-19疫情的背景下，波兰COVID-19数据集被广泛应用于多变量时间序列预测研究。该数据集通过记录每日新增病例、总检测数、新增康复病例和活跃病例等关键指标，为研究者提供了丰富的时间序列数据。这些数据被用于训练和评估基于Transformer架构的神经网络模型，以预测疫情发展趋势。通过时间序列分割和K折交叉验证等方法，研究者能够有效捕捉数据中的时间依赖性和非线性趋势，从而提升预测精度。

解决学术问题

该数据集解决了多变量时间序列预测中的若干关键学术问题。首先，它通过提供多维度的疫情数据，帮助研究者探索不同变量之间的复杂关系。其次，通过引入Transformer架构，该数据集支持了对长期依赖性和非线性趋势的建模，弥补了传统LSTM模型在处理复杂时间模式时的不足。此外，数据预处理和多种分割方法的结合，为模型评估提供了科学依据，推动了时间序列预测领域的方法学创新。

衍生相关工作

基于波兰COVID-19数据集，研究者们开展了多项经典工作。例如，一些研究将Transformer架构与LSTM网络进行对比，验证了前者在捕捉长期依赖性方面的优势。此外，结合时间序列分割和交叉验证方法的研究，进一步优化了模型的泛化能力。这些工作不仅推动了时间序列预测技术的发展，还为其他领域（如金融、气象）的多变量时间序列分析提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集