GIFT-Eval
收藏arXiv2024-10-14 更新2024-10-16 收录
下载链接:
http://arxiv.org/abs/2410.10393v1
下载链接
链接失效反馈官方服务:
资源简介:
GIFT-Eval是由Salesforce AI Research创建的一个通用时间序列预测模型评估基准。该数据集包含144,000条时间序列,涵盖七个领域、10种频率,数据点总数达1.77亿。数据集的创建过程包括了广泛的预训练和训练/测试组件,确保了多样性和广泛的应用场景。GIFT-Eval旨在解决时间序列预测模型在零样本和通用预测能力评估中的不足,推动时间序列基础模型的发展。
GIFT-Eval is a general-purpose time series forecasting model evaluation benchmark created by Salesforce AI Research. This dataset contains 144,000 time series spanning seven domains and 10 frequencies, with a total of 177 million data points. The construction of this dataset incorporates extensive pre-training workflows and properly structured train/test components to ensure its diversity and broad coverage of application scenarios. GIFT-Eval aims to address the gaps in evaluating the zero-shot and general forecasting capabilities of time series forecasting models, and promote the development of time series foundation models.
提供机构:
Salesforce AI Research
创建时间:
2024-10-14
搜集汇总
数据集介绍

构建方式
GIFT-Eval数据集的构建旨在解决时间序列预测模型评估中存在的基准测试不足的问题。该数据集包含了来自七个领域的28个数据集,共计144,000个时间序列和1.77亿个数据点,涵盖了10种频率,从短期到长期预测,以及单变量和多变量输入。为了促进基础模型的有效预训练和评估,还提供了一个包含约2300亿个数据点的非泄漏预训练数据集。此外,该数据集还提供了17个基线模型的综合分析,包括统计模型、深度学习模型和基础模型。
特点
GIFT-Eval数据集的特点在于其广泛的多样性和综合性。它涵盖了多个领域、频率、变量数量和预测长度,使得模型能够在不同的时间序列特征和预测任务上进行评估。数据集的构建还考虑了时间序列数据的统计特征,如趋势、季节性、熵、赫斯特指数、稳定性和块状度。这些特征有助于了解数据集的复杂性和可预测性,并为模型评估提供了更深入的分析。
使用方法
使用GIFT-Eval数据集时,首先需要了解数据集的结构和特征。数据集被分为预训练和训练/测试两部分。预训练部分包含88个数据集,共计2400亿个数据点,用于模型预训练。训练/测试部分包含28个数据集,共计144,000个时间序列和1.77亿个数据点,用于模型评估。在评估模型时,可以使用提供的17个基线模型作为参考,并根据需要调整模型参数。评估指标包括点预测的MAPE和概率预测的CRPS。
背景与挑战
背景概述
时间序列预测模型在零样本预测方面表现出色,能够处理多样化的任务而不需要显式训练。然而,这些模型的进展受到了缺乏全面基准的限制。为了解决这个问题,我们介绍了通用时间序列预测模型评估(GIFT-Eval),这是一个开创性的基准,旨在促进在各种数据集上的评估。GIFT-Eval涵盖了28个数据集,超过144,000个时间序列和1.77亿个数据点,跨越七个领域,10个频率,多变量输入和从短期到长期的预测长度。为了促进基础模型的预处理和评估,我们还提供了一个不泄漏的预处理数据集,其中包含大约2300亿个数据点。此外,我们还提供了对17个基线的全面分析,包括统计模型、深度学习模型和基础模型。我们在各种基准特征的环境中讨论了每个模型,并提供了跨越深度学习和基础模型的定性分析。我们相信,从这个分析中获得的见解,以及访问这个新的零样本时间序列预测基准,将指导时间序列基础模型未来的发展。代码库、数据集和一个详细的排行榜,展示所有结果,将很快可用。
当前挑战
GIFT-Eval面临的挑战包括:1) 领域问题:时间序列预测模型缺乏统一的、多样化的基准,难以进行公平的比较。2) 构建过程中的挑战:构建包含大型、多样化评估数据集和尽可能不泄漏的预处理数据的基准,需要解决数据泄漏问题,确保模型之间的公平比较。
常用场景
经典使用场景
GIFT-Eval 数据集主要用于评估通用时间序列预测模型的能力,特别是零样本预测能力。该数据集涵盖了 28 个数据集,包含 144,000 个时间序列和 1.77 亿个数据点,跨越七个领域,十个频率,多变量输入和预测长度从短期到长期预测。这使得 GIFT-Eval 成为评估通用时间序列预测模型性能的全面基准。
解决学术问题
GIFT-Eval 数据集解决了现有时间序列预测模型评估基准缺乏多样性和全面性的问题。通过提供广泛的领域、频率、变量数量和预测长度的数据集,GIFT-Eval 能够更准确地评估模型的零样本预测能力。此外,GIFT-Eval 还提供了一份非泄露的预训练数据集,这有助于公平地评估模型并识别其弱点。
衍生相关工作
GIFT-Eval 数据集的发布推动了时间序列预测领域的研究进展。该数据集已被用于训练和评估各种时间序列预测模型,包括统计模型、深度学习模型和基础模型。此外,GIFT-Eval 还衍生了一些相关的经典工作,例如 LOTSA 数据集,这是迄今为止最大的开放时间序列数据集集合。这些工作为时间序列预测模型的进一步研究和开发提供了有价值的参考。
以上内容由遇见数据集搜集并总结生成



