Salesforce/GiftEvalPretrain

Name: Salesforce/GiftEvalPretrain
Creator: Salesforce
Published: 2025-01-21 09:20:58
License: 暂无描述

Hugging Face2025-01-21 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/Salesforce/GiftEvalPretrain

下载链接

链接失效反馈

官方服务：

资源简介：

GIFT-Eval预训练数据集与GIFT-Eval对齐，包含71个单变量和17个多变量数据集，涵盖七个领域和13种频率，总计450万个时间序列和2300亿个数据点。值得注意的是，该数据集在训练/测试分割上没有泄漏问题，可用于预训练基础模型，并可在GIFT-Eval上进行公平评估。

Pretraining dataset aligned with GIFT-Eval that has 71 univariate and 17 multivariate datasets, spanning seven domains and 13 frequencies, totaling 4.5 million time series and 230 billion data points. Notably this collection of data has no leakage issue with the train/test split and can be used to pretrain foundation models that can be fairly evaluated on GIFT-Eval.

提供机构：

Salesforce

搜集汇总

数据集介绍

构建方式

在时间序列预测领域，构建高质量预训练数据集对提升模型泛化能力至关重要。GIFT-Eval预训练数据集通过整合71个单变量与17个多变量数据集，覆盖七个不同领域及13种时间频率，总计包含450万条时间序列与2300亿个数据点。其构建过程严格遵循无数据泄漏原则，确保训练集与测试集之间的独立性，为时间序列基础模型的公平评估提供了可靠的数据支撑。

特点

该数据集在时间序列预测研究中展现出显著优势，其跨领域、多频率的丰富结构为模型提供了广泛的学习场景。数据集涵盖金融、气象、能源等多个关键领域，时间频率从高频到低频一应俱全，能够全面检验模型的适应性与鲁棒性。特别值得注意的是，数据集在设计上彻底避免了训练与测试数据之间的泄漏问题，确保了评估结果的公正性与科学性，为时间序列预测模型的基准测试奠定了坚实基础。

使用方法

研究人员可利用该数据集进行时间序列基础模型的预训练，随后在GIFT-Eval基准测试框架下进行公平评估。使用时应首先加载数据集，按照指定的领域和频率划分进行模型训练，充分利用其大规模、多样化的特点来优化模型参数。预训练完成后，模型可直接应用于下游的时间序列预测任务，或通过微调适应特定场景需求，从而推动时间序列预测技术的整体进步与创新。

背景与挑战

背景概述

在时间序列预测领域，构建一个全面且无数据泄露的预训练数据集对于推动基础模型的发展至关重要。Salesforce于2024年发布的GiftEvalPretrain数据集，由Taha Aksu等研究人员主导开发，旨在为通用时间序列预测模型的评估提供高质量的预训练支持。该数据集整合了71个单变量和17个多变量数据集，覆盖七个领域和13种频率，总计包含450万条时间序列和2300亿个数据点，其核心研究问题聚焦于解决传统预训练数据中普遍存在的训练-测试分割泄露问题，从而确保模型评估的公平性与可靠性。这一工作不仅为时间序列预测研究提供了标准化的基准，还显著提升了模型在跨领域泛化能力方面的潜力，对推动人工智能在金融、气象等关键领域的应用具有深远影响。

当前挑战

GiftEvalPretrain数据集致力于应对通用时间序列预测模型评估中的核心挑战，即如何在多样化的领域和频率下确保模型性能的准确度量。具体而言，该数据集需解决时间序列数据固有的非平稳性、噪声干扰以及跨域特征对齐等难题，这些因素常导致模型泛化能力不足。在构建过程中，研究人员面临数据整合的复杂性，包括来自不同来源的格式统一、频率标准化，以及严格避免训练集与测试集之间的信息泄露，以确保评估的公正性。此外，处理海量数据（如2300亿个数据点）对存储、计算效率和可扩展性提出了严峻考验，要求精心的工程设计与质量控制。

常用场景

经典使用场景

在时间序列预测领域，GIFT-Eval预训练数据集为构建通用预测基础模型提供了关键支持。该数据集整合了71个单变量和17个多变量时间序列，覆盖七个领域和13种频率，总计包含450万条序列和2300亿个数据点。其经典使用场景在于为研究人员提供了一个无数据泄露问题的预训练平台，使得模型能够在统一的基准上进行公平评估，从而推动时间序列预测模型的泛化能力研究。

解决学术问题

该数据集有效解决了时间序列预测中模型评估的公平性与泛化性难题。通过提供大规模、多领域、多频率且无数据泄露的预训练数据，它使学者能够系统研究基础模型在不同时间序列模式下的适应能力。这不仅促进了预测精度与鲁棒性的理论探索，还为跨领域时间序列知识的迁移学习提供了实证基础，对提升预测模型的通用性具有重要学术意义。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，特别是以GIFT-Eval基准为核心的模型评估框架。相关研究聚焦于开发基于Transformer的通用时间序列预测架构，以及探索预训练策略在多元序列中的有效性。这些工作不仅推动了时间序列基础模型的发展，还催生了跨频率预测、零样本迁移等创新方向，为时间序列分析领域注入了新的研究活力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集