FoundTS

Name: FoundTS
Creator: 华东师范大学
Published: 2024-10-16 01:23:49
License: 暂无描述

arXiv2024-10-16 更新2024-10-17 收录

下载链接：

https://anonymous.4open.science/r/FoundTS-C2B0

下载链接

链接失效反馈

官方服务：

资源简介：

FoundTS是一个用于时间序列预测的基础模型综合评估和比较的基准数据集。该数据集由华东师范大学创建，涵盖了多个领域和不同特征的时间序列数据，旨在全面评估和比较不同基础模型在时间序列预测中的表现。数据集包括来自股票、健康、能源、电力、环境、交通、自然、银行、网络和经济等十个领域的数据，具有季节性、趋势、平稳性等多种特征。FoundTS支持零样本、少样本和全样本等多种评估策略，通过标准化数据分割、加载、归一化和少样本采样等流程，确保评估的公平性和全面性。该数据集主要应用于时间序列预测领域，旨在解决现有模型在新领域或未见数据上泛化能力不足的问题。

FoundTS is a benchmark dataset for comprehensive evaluation and comparison of foundation models in time series forecasting. Developed by East China Normal University, this dataset covers time series data from multiple domains with diverse characteristics, aiming to thoroughly assess and compare the performance of various foundation models in time series forecasting. It includes data from ten domains such as stocks, healthcare, energy, power, environment, transportation, natural sciences, banking, networks, and economics, and possesses multiple characteristics including seasonality, trend, and stationarity. FoundTS supports multiple evaluation strategies such as zero-shot, few-shot, and full-sample settings, and ensures the fairness and comprehensiveness of evaluations through standardized workflows including data splitting, loading, normalization, and few-shot sampling. This dataset is primarily applied in the time series forecasting domain, with the objective of addressing the insufficient generalization ability of existing models on new domains or unseen data.

提供机构：

华东师范大学

创建时间：

2024-10-16

搜集汇总

数据集介绍

构建方式

FoundTS数据集的构建方式旨在全面评估时间序列预测基础模型的性能。该数据集涵盖了来自不同领域的多样化数据集，包括金融、天气服务和能源管理等。通过整合多种时间序列基础模型，包括基于大型语言模型和预训练时间序列模型，FoundTS支持零样本、少样本和全样本等多种预测策略，从而实现对模型性能的全面评估。此外，FoundTS还提供了一个标准化的评估流程，包括数据集分割、加载、归一化和少样本采样，以确保评估的公平性和一致性。

使用方法

使用FoundTS数据集时，研究人员可以利用其提供的多样化数据集和多种预测策略来评估和比较不同的时间序列预测模型。首先，用户可以选择适合自己研究需求的数据集和预测策略。然后，通过标准化的数据处理流程，包括数据分割、加载和归一化，确保实验设置的一致性。最后，利用FoundTS提供的评估指标，如均方误差（MSE）和平均绝对误差（MAE），对模型的预测性能进行量化分析。通过这种方式，研究人员可以全面了解模型在不同条件下的表现，并为进一步的模型优化提供指导。

背景与挑战

背景概述

FoundTS数据集由华东师范大学、松鼠AI和奥尔堡大学的主要研究人员于2024年创建，旨在为时间序列预测（TSF）领域的基础模型提供一个全面且统一的基准。时间序列预测在金融、天气服务和能源管理等多个领域中具有关键功能。尽管近年来出现了多种TSF方法，但许多方法需要特定领域的数据收集和模型训练，并且在新的领域中泛化性能较差。基础模型旨在克服这一限制，通过在大规模语言或时间序列数据上预训练，展现出在新数据上的推理能力。FoundTS数据集的提出，旨在通过覆盖多种基于大语言模型和时间序列预训练的TSF基础模型，支持零样本、少样本和全样本的不同预测策略，并提供标准化的评估流程，从而促进对这些模型的全面和公平评估。

当前挑战

FoundTS数据集面临的挑战主要包括两个方面。首先，解决时间序列预测领域中的泛化问题，即模型在新领域或未见数据上的表现。其次，在构建过程中，如何确保数据集的多样性和代表性，以及如何设计有效的评估策略和标准化流程，以确保不同模型之间的公平比较。此外，FoundTS还需要应对不同实验设置带来的挑战，如零样本、少样本和全样本预测策略的差异，以及不同采样方法对模型性能的影响。这些挑战要求FoundTS在数据选择、模型覆盖和评估策略上进行细致的设计和优化。

常用场景

经典使用场景

FoundTS数据集在时间序列预测领域中被广泛用于评估基础模型的性能。其经典使用场景包括对大规模语言模型和时间序列预训练模型进行零样本、少样本和全样本的预测策略评估。通过这些策略，研究者可以全面评估模型在新数据集上的泛化能力和适应性，从而为模型设计和优化提供有力支持。

解决学术问题

FoundTS数据集解决了时间序列预测中基础模型泛化能力不足的学术问题。传统的时间序列预测模型通常需要针对特定数据集进行训练，难以在新领域中表现良好。FoundTS通过提供多样化的数据集和全面的评估策略，帮助研究者识别现有基础模型的优缺点，并为未来模型的设计提供方向。其意义在于推动时间序列预测技术的发展，提升模型在不同领域中的应用效果。

实际应用

FoundTS数据集在实际应用中具有广泛的应用场景。例如，在金融领域，可以通过该数据集评估模型对股票价格、汇率等时间序列数据的预测能力；在能源管理中，可以用于预测电力需求和太阳能发电量；在天气服务中，可以用于预测气象指标的变化。通过这些实际应用，FoundTS数据集为各行业提供了可靠的模型评估工具，有助于提升决策的准确性和效率。

数据集最近研究