five

TSFM-ScalingLaws-Dataset

收藏
github2025-02-08 更新2025-02-28 收录
下载链接:
https://github.com/Qingrenn/TSFM-ScalingLaws
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多个不同大小的子数据集,用于时间序列基础模型的训练和测试。

The dataset encompasses multiple sub-datasets of varying sizes, intended for training and testing of time-series fundamental models.
创建时间:
2025-02-07
原始信息汇总

数据集概述

数据集名称

  • (ICLR25) Towards Neural Scaling Laws for Time Series Foundation Models

数据集来源

  • GitHub: Qingrenn/TSFM-ScalingLaws

数据集简介

  • 本数据集用于研究时间序列基础模型的神经规模法则。

数据集构成

  • 训练数据集包含:
    • Lotsa16B
    • Lotsa1B
    • Lotsa100M
    • Lotsa10M
  • 测试数据集包含:
    • in-distribution 数据:Lotsa16B, Lotsa1B, Lotsa100M, Lotsa10M
    • out-of-distribution 数据:LSF, Monash

数据集获取

数据集引用

  • 如果使用该数据集,请引用以下论文:

    @misc{yao2024towards, title={Towards Neural Scaling Laws for Time Series Foundation Models}, author={Yao, Qingren and Yang, Chao-Han Huck and Jiang, Renhe and Liang, Yuxuan and Jin, Ming and Pan, Shirui}, year={2024} eprint={2410.12360}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2410.12360} }

搜集汇总
数据集介绍
main_image_url
构建方式
TSFM-ScalingLaws-Dataset数据集的构建基于对时间序列基础模型的神经规模化规律的研究。该数据集通过整合多个不同规模的时间序列数据,包括Lotsa16B、Lotsa1B、Lotsa100M和Lotsa10M,以及用于测试的LSF和Monash数据,形成了一个层次分明、规模各异的数据集,以适应不同参数量的模型训练需求。
特点
该数据集的特点在于其多样性和规模性,涵盖了从小规模到大规模的时间序列数据,能够满足研究者对于时间序列基础模型训练和评估的全面需求。此外,数据集的组织结构清晰,分为训练集和测试集,便于模型的训练和验证。其测试集进一步细分为分布内数据、分布外数据,有助于研究模型对于不同分布数据的泛化能力。
使用方法
使用TSFM-ScalingLaws-Dataset数据集时,用户需先安装相关依赖,并从Huggingface平台下载数据集。通过创建.env文件指定数据集路径后,用户可以按照配置文件中定义的超参数进行模型训练。训练过程中,可通过wandb记录实验结果,并使用Jupyter脚本进行数据分析和可视化。此外,训练好的模型可以从PeacefulData提供的模型仓库中获取,便于研究者直接使用或进一步研究。
背景与挑战
背景概述
TSFM-ScalingLaws-Dataset是针对时序基础模型神经规模法则研究的专用数据集。该数据集由Yao Qingren等研究人员于2024年创建,并在ICLR'25会议上发表相关论文。该数据集的构建旨在探索和验证时序基础模型在不同规模数据上的性能表现,以及模型参数量对性能的影响。它包含了多个不同规模的时间序列数据集,如Lotsa16B、Lotsa1B、Lotsa100M和Lotsa10M等。该数据集对时序分析领域的研究具有重要意义,为研究时序模型的可扩展性和性能提供了实验基础。
当前挑战
该数据集在构建过程中面临的挑战包括:1) 如何有效处理大规模时间序列数据,确保数据加载和处理的效率;2) 如何设计实验以准确评估不同模型规模和不同数据规模对模型性能的影响;3) 在模型训练和评估过程中,如何保证实验的一致性和可重复性。在研究领域问题上,TSFM-ScalingLaws-Dataset旨在解决时序基础模型在面临不同规模数据时的性能预测和优化问题,这对于提升时序模型的实际应用效率至关重要。
常用场景
经典使用场景
TSFM-ScalingLaws-Dataset数据集作为时序基础模型神经规模法则研究的实验基础,其经典使用场景在于对大规模时序数据进行预训练,探究模型规模与数据规模之间的关系,以及模型性能随参数量变化的规律。
衍生相关工作
基于该数据集,衍生出了多项相关研究工作,如TimeMixer++模型的提出,以及对时序基础模型的综述和分析,进一步推动了时序数据分析领域的发展和研究深度。
数据集最近研究
最新研究方向
随着时间序列基础模型研究的深入,TSFM-ScalingLaws-Dataset数据集的提出,旨在探究神经网络的规模法则。该数据集通过不同规模的数据对时间序列基础模型进行训练与评估,研究了模型性能随参数量增长的变化规律,为时间序列分析的模型选择与优化提供了重要依据。该研究方向紧跟基础模型领域的前沿,对于理解大规模模型在时间序列处理任务中的表现和效率具有重要的理论和实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作