TSFM-ScalingLaws-Dataset

github2025-02-08 更新2025-02-28 收录

下载链接：

https://github.com/Qingrenn/TSFM-ScalingLaws

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个不同大小的子数据集，用于时间序列基础模型的训练和测试。

The dataset encompasses multiple sub-datasets of varying sizes, intended for training and testing of time-series fundamental models.

创建时间：

2025-02-07

原始信息汇总

数据集概述

数据集名称

(ICLR25) Towards Neural Scaling Laws for Time Series Foundation Models

数据集来源

GitHub: Qingrenn/TSFM-ScalingLaws

数据集简介

本数据集用于研究时间序列基础模型的神经规模法则。

数据集构成

训练数据集包含：
- Lotsa16B
- Lotsa1B
- Lotsa100M
- Lotsa10M
测试数据集包含：
- in-distribution 数据：Lotsa16B, Lotsa1B, Lotsa100M, Lotsa10M
- out-of-distribution 数据：LSF, Monash

数据集获取

数据集下载地址：Qingren/TSFM-ScalingLaws-Dataset

数据集引用

如果使用该数据集，请引用以下论文：

@misc{yao2024towards, title={Towards Neural Scaling Laws for Time Series Foundation Models}, author={Yao, Qingren and Yang, Chao-Han Huck and Jiang, Renhe and Liang, Yuxuan and Jin, Ming and Pan, Shirui}, year={2024} eprint={2410.12360}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2410.12360} }

搜集汇总

数据集介绍

构建方式

TSFM-ScalingLaws-Dataset数据集的构建基于对时间序列基础模型的神经规模化规律的研究。该数据集通过整合多个不同规模的时间序列数据，包括Lotsa16B、Lotsa1B、Lotsa100M和Lotsa10M，以及用于测试的LSF和Monash数据，形成了一个层次分明、规模各异的数据集，以适应不同参数量的模型训练需求。

特点

该数据集的特点在于其多样性和规模性，涵盖了从小规模到大规模的时间序列数据，能够满足研究者对于时间序列基础模型训练和评估的全面需求。此外，数据集的组织结构清晰，分为训练集和测试集，便于模型的训练和验证。其测试集进一步细分为分布内数据、分布外数据，有助于研究模型对于不同分布数据的泛化能力。

使用方法

使用TSFM-ScalingLaws-Dataset数据集时，用户需先安装相关依赖，并从Huggingface平台下载数据集。通过创建.env文件指定数据集路径后，用户可以按照配置文件中定义的超参数进行模型训练。训练过程中，可通过wandb记录实验结果，并使用Jupyter脚本进行数据分析和可视化。此外，训练好的模型可以从PeacefulData提供的模型仓库中获取，便于研究者直接使用或进一步研究。

背景与挑战

背景概述

TSFM-ScalingLaws-Dataset是针对时序基础模型神经规模法则研究的专用数据集。该数据集由Yao Qingren等研究人员于2024年创建，并在ICLR'25会议上发表相关论文。该数据集的构建旨在探索和验证时序基础模型在不同规模数据上的性能表现，以及模型参数量对性能的影响。它包含了多个不同规模的时间序列数据集，如Lotsa16B、Lotsa1B、Lotsa100M和Lotsa10M等。该数据集对时序分析领域的研究具有重要意义，为研究时序模型的可扩展性和性能提供了实验基础。

当前挑战

该数据集在构建过程中面临的挑战包括：1) 如何有效处理大规模时间序列数据，确保数据加载和处理的效率；2) 如何设计实验以准确评估不同模型规模和不同数据规模对模型性能的影响；3) 在模型训练和评估过程中，如何保证实验的一致性和可重复性。在研究领域问题上，TSFM-ScalingLaws-Dataset旨在解决时序基础模型在面临不同规模数据时的性能预测和优化问题，这对于提升时序模型的实际应用效率至关重要。

常用场景

经典使用场景

TSFM-ScalingLaws-Dataset数据集作为时序基础模型神经规模法则研究的实验基础，其经典使用场景在于对大规模时序数据进行预训练，探究模型规模与数据规模之间的关系，以及模型性能随参数量变化的规律。

衍生相关工作

基于该数据集，衍生出了多项相关研究工作，如TimeMixer++模型的提出，以及对时序基础模型的综述和分析，进一步推动了时序数据分析领域的发展和研究深度。

数据集最近研究