S2 dataset

Name: S2 dataset
Creator: 西安电子科技大学
Published: 2025-02-21 21:43:24
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2502.15466v1

下载链接

链接失效反馈

官方服务：

资源简介：

S2数据集是由西安电子科技大学的研究团队创建的大型合成系列-符号数据集。该数据集通过随机生成的符号表达式和采样系列构建而成，包含了2500万对时间序列和相应的符号表达式。数据集的构建旨在解决时间序列分析中的数据稀缺问题，通过无限生成高质量的系列-符号双模态数据，为时间序列基础模型的预训练提供了新的途径。

The S2 Dataset is a large-scale synthetic sequence-symbol dataset created by a research team from Xidian University. Constructed using randomly generated symbolic expressions and sampled sequences, it contains 25 million pairs of time series and their corresponding symbolic expressions. This dataset is designed to address the data scarcity problem in time series analysis, as it enables the infinite generation of high-quality sequence-symbol bimodal data, thereby providing a new pathway for the pre-training of time series foundation models.

提供机构：

西安电子科技大学

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

S2数据集的构建方式是基于符号表达式的生成，将时间序列视为复杂动态系统的表示，并使用符号表达式作为时间序列的语义描述。通过随机采样构建多元输入输出符号表达式，并使用随机生成的采样序列进行前向传播，得到对应的时间序列数据。同时，还从混合分布和随机参数化的ARMA模型中采样多通道输入序列，以保证生成的时间序列数据具有多样性。最终，将时间序列和符号表达式配对，构建了大规模的S2数据集。

特点

S2数据集的特点在于其双模态数据生成机制，能够无限制地生成高质量的时间序列数据和相应的符号表示。该数据集覆盖了所有类型的时间序列的基本表示，可以解决数据稀缺问题。此外，S2数据集在统计特征上与真实世界的时间序列数据集具有高度的重叠，证明了其数据质量和代表性。

使用方法

使用S2数据集进行时间序列分析的基础模型预训练。首先，对时间序列进行分块，并将符号表达式进行分词。然后，使用时间序列编码器对时间序列进行掩码时间序列建模，学习时间序列的基本表示。同时，使用符号编码器对符号表达式进行掩码语言建模，学习符号表达式的表示。最后，通过系列-符号对比学习和动量蒸馏，使时间序列编码器能够学习符号表达的语义信息，并学习跨模态配对表示和知识。预训练完成后，可以使用预训练模型进行下游任务，如长期预测、短期预测、分类、插补和异常检测等。

背景与挑战

背景概述

时间序列分析（TSA）领域，尤其是在深度学习模型中的应用，近年来受到了广泛关注。然而，数据稀缺性和数据不平衡问题一直是阻碍其发展的主要挑战。为了解决这一问题，研究人员提出了通过符号表达式来模拟复杂系统的想法，这些符号表达式可以作为时间序列的语义描述符。基于这一概念，研究人员Wenxuan Wang等人提出了一个名为S2的数据集，该数据集通过系列-符号（S2）双模态数据生成机制，可以无限制地创建高质量的时序数据及其对应的符号表示。利用S2数据集，研究人员开发了一个名为SymTime的预训练基础模型，该模型在五个主要TSA任务上表现出了竞争性的性能。这项工作强调了双模态数据生成和预训练机制在克服数据稀缺性和提升任务性能方面的潜力。

当前挑战

S2数据集和相关研究面临的挑战主要包括：1) 时间序列数据的稀缺性和不平衡性，这可能导致预训练模型在下游任务上的性能偏差；2) 构建双模态数据集的挑战，包括如何有效地生成高质量的时序数据和相应的符号表示；3) 如何将符号语义信息与时间序列表示相结合，以提升模型在下游任务上的性能。

常用场景

经典使用场景

S2数据集主要用于时间序列分析（TSA）的基础模型预训练，通过其双模态数据生成机制，可以无限量地创建高质量的时序数据和相应的符号表示。SymTime模型利用S2数据集进行预训练，展现出在五个主要TSA任务上的竞争性性能。

解决学术问题

S2数据集解决了时序分析中数据稀缺和数据不平衡的问题。通过生成丰富的、多样化的、高质量的合成数据，该方法不仅解决了这些问题，而且为提高模型在广泛应用程序上的泛化能力开辟了新的途径。此外，该双模态框架，将时序数据与符号语义相结合，引入了一种新的方式来丰富模型的表示能力，使它们能够更好地理解复杂的时序动态及其背后的模式。

衍生相关工作

S2数据集衍生了SymTime模型，该模型在五个主要TSA任务上展现出优异的性能。此外，该数据集还促进了时间序列分析中预训练模型的发展，这些模型结合了结构化符号信息与时序数据，从而提高了模型在广泛应用程序上的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集