jeremycochoy/gift-pretrain-small-4096
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/jeremycochoy/gift-pretrain-small-4096
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为gift-pretrain-small-4096,是一个用于时间序列预测的基准数据集。它是jeremycochoy/gift-pretrain-small数据集的伴生数据集,采样方式相同,但裁剪窗口为4096点而非1025点。数据集通过从Salesforce/GiftEvalPretrain的每个子数据集中均匀采样10个系列,然后将每个选定的系列裁剪为长度为4096的非重叠窗口,并全局打乱结果构建而成。系列长度小于4096点的会被跳过,因此该数据集比1025版本更小。数据集布局包括small_v1目录下的分片文件和manifest.json,以及eval目录。数据集的schema包括series(固定长度的非重叠窗口)、source_id(始终为0)和meta(原始item_id)。数据集的压缩方式为zstd,行组大小为10,000。采样策略与1025窗口版本相同,即在每个顶级目录中选择最小的arrow文件,均匀无放回地采样K=10个系列,从每个选定的系列中发出每个非重叠的4096点窗口。
The dataset is named gift-pretrain-small-4096 and is a benchmark dataset for time series forecasting. It is a companion to the jeremycochoy/gift-pretrain-small dataset, with identical sampling but a 4096-point crop window instead of 1025. The dataset is constructed by uniformly sampling 10 series from every sub-dataset of Salesforce/GiftEvalPretrain, then cropping each selected series into non-overlapping windows of length 4096 and globally shuffling the result. Series shorter than 4096 points yield zero windows and are silently skipped, making this bundle naturally smaller than the 1025 version even at the same K. The dataset layout includes shard files and manifest.json in the small_v1 directory, as well as an eval directory. The dataset schema includes series (fixed-length non-overlapping window), source_id (always 0), and meta (original item_id). The dataset is compressed with zstd, with a row group size of 10,000. The sampling strategy is the same as the 1025-window bundle: pick the smallest arrow file in each top-level directory, sample K=10 series uniformly without replacement, emit every non-overlapping 4096-point window from each selected series.
提供机构:
jeremycochoy
搜集汇总
数据集介绍

构建方式
在时序预测领域,大规模预训练数据集的构建往往面临序列长度与采样均匀性之间的权衡。本数据集通过对Salesforce/GiftEvalPretrain中每个子数据集均匀抽取10条序列,再以4096点为窗口长度进行无重叠切割,并全局打乱后打包而成。不足4096点的序列被静默剔除,使得该数据集的规模天然小于同策略的1025点版本,仅由长序列子数据集贡献主要样本。构建脚本通过training_data_prep.build_gift_only_bundle模块实现,支持通过参数调整采样数量与窗口长度。
特点
该数据集的核心特征在于其固定长度的4096点非重叠窗口设计,有别于常见的滑动窗口采样策略。由于舍弃了短序列,其样本分布更侧重于长时域模式的捕捉,有利于训练模型对长期依赖关系的建模能力。数据以parquet格式存储,包含series、source_id和meta三列,其中source_id恒为0表示单一源,meta字段保留原始item_id便于追溯。采用zstd压缩及10000行的行组大小,兼顾存储效率与读取性能。
使用方法
使用时可直接从small_v1目录下加载shard_*.parquet文件,每行包含长度为4096的浮点序列及其元信息。由于数据集已全局打乱,可用于时序预训练任务的随机批次采样。对于需要与其他数据集联合使用的场景,需注意source_id字段的单源性特征,可通过meta字段中的原始标识进行跨数据集映射。建议利用parquet的列式存储特性,按需读取series列以节省内存开销。
背景与挑战
背景概述
时间序列预测是机器学习领域一项具有深远意义的基础任务,广泛应用于气象预报、金融分析、工业监控等多个关键领域。然而,长期依赖关系的捕获与多尺度时间模式的建模始终是该领域的核心难题。为此,Salesforce研究团队于近年推出了GiftEvalPretrain基准数据集,旨在评估和促进时间序列预训练模型的发展。在此框架下,gift-pretrain-small-4096数据集由Jeremy Cochoy等人于2024年构建,作为其配套变体,专门聚焦于较长的时间窗口(4096个时间点)以强化模型对长期依赖的学习能力。该数据集从GiftEvalPretrain的每个子数据集中均匀采样10条序列,经非重叠裁剪与全局洗牌后生成,为时间序列预训练研究提供了一个更加聚焦长序列特性的评估平台,对推动该领域方法论的创新具有重要参考价值。
当前挑战
时间序列预测领域长期面临序列长度与计算效率的平衡难题,传统短窗口设置难以捕捉年度周期性或长期趋势等宏观模式,而长窗口虽能提供更丰富的时间上下文,却易导致维度灾难与过拟合风险。gift-pretrain-small-4096数据集通过将窗口扩展至4096点,直接挑战模型在超长记忆依赖场景下的表征能力,考验其能否在不显著牺牲泛化性能的前提下有效利用长程信息。此外,数据集构建自身亦面临严峻挑战:由于仅从长度超过4096点的序列中提取窗口,大量短序列子数据集被自然淘汰,造成数据覆盖的稀疏性及其潜在的分布偏移;同时,在保持相同采样数量(K=10)的情况下,长窗口样本总数显著减少,进一步加剧了小样本学习条件下预训练模型的鲁棒性评估难度。
常用场景
经典使用场景
在时间序列预测领域,长序列建模一直是学术研究的核心挑战之一。gift-pretrain-small-4096数据集专为长程依赖捕捉而设计,每个样本均为固定长度4096点的无重叠时间窗口,这使其成为评估和训练大窗口预测模型的理想基准。研究者常利用该数据集在预训练阶段对模型进行大规模无监督学习,例如学习时间序列的全局表示、周期性模式和长期趋势,从而提升模型在股票价格、电力负荷、气象观测等长序列任务上的预测精度。其精选的多样本来源确保了数据分布的丰富性,促使模型在迁移学习场景中展现出更强的泛化能力。
解决学术问题
该数据集的诞生有效攻克了时间序列预训练中数据规模与窗口长度之间的矛盾。传统小窗口数据集(如1025点)限制了模型对超长期依赖关系的捕捉,而gift-pretrain-small-4096通过统一采样与4096点无重叠裁剪,为学界提供了首个聚焦长序列的紧凑型预训练基准。它解决了高保真长程特征提取困难、多源数据分布异构性导致的预训练不通用等问题,推动了Transformer、扩张卷积等架构在时间序列上下文窗口扩展上的理论突破。其贡献在于验证了长窗口预训练对下游任务(如极端事件预警、长周期经济预测)性能的显著增益,为建立更稳健的时间序列基础模型奠定了数据基石。
衍生相关工作
该数据集衍生了一系列影响深远的学术工作。在模型架构层面,研究者以其为基础设计了长序列高效注意力机制(如窗口稀疏注意力)和时序基础模型(如TimesFM),验证了缩放定律在时间序列领域的适用性。在评估体系方面,它催生了GiftEval基准的扩展版本,促使学界重新定义长序列预测的质量指标,并衍生出对比不同窗口长度对预训练表征影响的分析方法。此外,基于该数据集的工作还推动了多分辨率时序编码器的诞生,以及跨模态(如文本增强时间序列预训练)范式的探索。这些研究共同构建了长序列时间序列预训练的理论与应用框架,成为该领域不可或缺的迭代基石。
以上内容由遇见数据集搜集并总结生成



