ETTm2, ETTh1, ETTh2, M4, Stock

github2024-10-31 更新2024-11-28 收录

下载链接：

https://github.com/Graph-and-Geometric-Learning/TimeSeriesCCM

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个时间序列数据集，用于测试和训练时间序列预测模型，包括ETTm2、ETTh1、ETTh2、M4和Stock数据集。

This repository contains multiple time series datasets for testing and training time series forecasting models, including ETTm2, ETTh1, ETTh2, M4, and Stock datasets.

创建时间：

2024-10-31

原始信息汇总

数据集概述

数据集下载

数据集可以从Google Drive下载，并解压到datasets/目录。

数据集使用

数据集用于时间序列预测实验，支持以下模型：
- TSMixer
- DLinear
- PatchTST
- TimesNet

实验示例

长期预测

例如，使用DLinear模型在ETTm2数据集上进行长度为96的预测： python python main.py --model DLinear --data ETTm2 --out_len 96 --in_len 336 --learning_rate 0.001 --batch_size 32 --individual "c"

零样本评估

例如，在ETTh1数据集上训练DLinear模型，并在ETTh2数据集上进行零样本测试： python python main.py --zero_shot_test True --data ETTh1 --test_data ETTh2 --model DLinear --out_len 96 --individual "c"

M4预测

在M4数据集中，输入长度和预测长度在datasets/data_loader.py中指定。训练DLinear模型： python python main_m4.py --model DLinear --data m4 --batch_size 32 --individual "c"

股票价格预测

在Stock数据集上训练DLinear模型，预测长度为7： python python main_stock.py --model DLinear --data stock --out_len 7 --in_len 28 --batch_size 128 --individual "c"

引用

如果使用此数据集，请引用相关论文：

@article{chen2024similarity, title={From Similarity to Superiority: Channel Clustering for Time Series Forecasting}, author={Chen, Jialin and Lenssen, Jan Eric and Feng, Aosong and Hu, Weihua and Fey, Matthias and Tassiulas, Leandros and Leskovec, Jure and Ying, Rex}, journal={arXiv preprint arXiv:2404.01340}, year={2024} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多个时间序列模型，包括ETTm2、ETTh1、ETTh2、M4和Stock。这些数据集通过Google Drive提供，用户需下载并解压至`datasets/`目录。每个数据集均包含特定的输入长度和预测长度，这些参数在`datasets/data_loader.py`中定义。数据集的构建旨在支持长程预测、零样本评估以及特定领域的预测任务，如股票价格预测。

特点

该数据集的主要特点在于其多样性和广泛的应用场景。它涵盖了从能源消耗到金融市场等多个领域的数据，支持多种时间序列预测任务。此外，数据集的设计考虑了通道间的交互作用，通过CCM（Channel Clustering Method）策略，有效平衡了各通道的处理，提升了预测性能。

使用方法

使用该数据集时，用户需首先安装Python 3.8.13及相应的依赖包，具体依赖项可在`requirements.txt`中查看。随后，用户可根据需求选择不同的模型（如DLinear、PatchTST等）和数据集进行训练。例如，通过运行`main.py`脚本，用户可以指定模型、数据集、预测长度等参数进行训练。此外，数据集还支持零样本评估和特定领域的预测任务，如M4数据集的预测和股票价格预测。

背景与挑战

背景概述

在时间序列预测领域，精确的预测模型对于金融、气象、能源等多个行业至关重要。ETTm2、ETTh1、ETTh2、M4和Stock数据集由Chen等人于2024年创建，旨在评估和提升时间序列预测模型的性能。这些数据集涵盖了从电力消耗到股票价格等多种时间序列数据，为研究人员提供了一个全面的测试平台。主要研究人员包括Jialin Chen、Jan Eric Lenssen等，他们隶属于耶鲁大学等知名机构。该数据集的核心研究问题是如何在保持时间序列间交互的同时，提升单个通道的处理效果。这一研究对时间序列预测领域具有重要影响，推动了相关算法的创新与发展。

当前挑战

这些数据集在构建过程中面临多项挑战。首先，数据集的多样性要求模型能够处理不同类型的时间序列数据，如电力消耗和股票价格，这对模型的泛化能力提出了高要求。其次，时间序列数据通常具有高维度和复杂的时间依赖性，如何在保持高预测精度的同时，有效处理这些依赖性是一个关键问题。此外，数据集的构建还需要考虑数据的质量和预处理，以确保模型的训练效果。最后，如何在不同模型和数据集之间进行有效的零样本评估，也是一个重要的研究方向。

常用场景

经典使用场景

在时间序列预测领域，ETTm2、ETTh1、ETTh2、M4和Stock数据集被广泛用于评估和优化预测模型的性能。这些数据集的经典使用场景包括长期预测、零样本评估以及特定领域的预测任务，如股票价格预测。例如，通过训练DLinear模型并应用CCM策略，研究者可以在ETTm2数据集上进行96步的长期预测，或在ETTh1数据集上训练模型后，在ETTh2数据集上进行零样本评估。

解决学术问题

这些数据集解决了时间序列预测中的多个关键学术问题，如模型泛化能力、长期依赖性处理以及跨领域预测的适应性。通过提供多样化的数据集，研究者能够更全面地评估和改进预测模型，从而推动时间序列分析领域的发展。这些数据集的使用不仅提升了模型的预测精度，还为时间序列数据的特征提取和交互建模提供了新的研究方向。

衍生相关工作

基于这些数据集，研究者们开发了多种创新的时间序列预测模型和方法。例如，CCM策略的提出，通过优化通道处理和交互，显著提升了预测性能。此外，PatchTST、DLinear和TimesNet等模型的改进和应用，也得益于这些数据集的广泛测试和验证。这些衍生工作不仅丰富了时间序列预测的理论体系，还为实际应用提供了更多有效的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集