BLAST
收藏arXiv2025-05-27 更新2025-05-29 收录
下载链接:
https://github.com/GestaltCogTeam/BLAST
下载链接
链接失效反馈官方服务:
资源简介:
BLAST数据集是由中国科学院计算技术研究所人工智能安全国家重点实验室创建的,旨在通过平衡采样策略增强数据多样性。该数据集包含了从公开数据集中提取的3210亿个观测数据,并采用了一套全面的统计指标来描述时间序列模式。为了便于基于模式的采样,数据通过基于网格的划分进行隐式聚类。此外,通过集成网格采样和网格混合技术,BLAST确保了对多种模式的平衡和代表性的覆盖。实验结果表明,在BLAST上预训练的模型以更少的计算资源和训练标记实现了最先进的性能。
The BLAST dataset was developed by the State Key Laboratory of Artificial Intelligence Security, Institute of Computing Technology, Chinese Academy of Sciences, aiming to enhance data diversity through a balanced sampling strategy. It contains 321 billion observational data extracted from public datasets, and adopts a comprehensive set of statistical metrics to characterize time series patterns. To facilitate pattern-based sampling, the data is implicitly clustered via grid-based partitioning. Furthermore, by integrating grid sampling and grid mixing techniques, BLAST ensures balanced and representative coverage of diverse patterns. Experimental results demonstrate that models pre-trained on BLAST achieve state-of-the-art performance with fewer computational resources and training tokens.
提供机构:
中国科学院计算技术研究所人工智能安全国家重点实验室
创建时间:
2025-05-23
搜集汇总
数据集介绍

构建方式
BLAST数据集的构建采用了创新的平衡采样策略,旨在解决大规模时间序列数据中固有的偏差和不平衡分布问题。首先,研究人员整合了来自多个公开数据集的3210亿个观测值,形成了一个庞大的原始数据集。随后,通过一系列统计指标(如平稳性、趋势性、季节性等)对每个时间序列的模式进行全面的特征刻画。为了实现对模式导向的采样,研究团队采用了基于网格的隐式聚类方法,将数据投影到低维空间。最后,通过结合网格采样和网格混合技术,确保了数据集中各类模式的平衡和代表性覆盖。这种构建方法不仅提高了数据的多样性,还显著提升了模型训练的效率和泛化能力。
特点
BLAST数据集最显著的特点是其通过平衡采样策略实现的高度多样性。该数据集包含3210亿个观测值,覆盖了广泛的时间序列模式。通过七类统计指标的特征工程,BLAST能够精确刻画每个时间序列的多维特性。网格化的采样方法确保了不同模式区域的均衡覆盖,有效解决了传统数据集中常见的模式不平衡问题。此外,BLAST还引入了网格混合技术,填补了模式分布中的空白区域,进一步增强了数据集的代表性和多样性。这些特点使得BLAST成为训练通用预测模型的理想选择,能够显著提升模型在零样本预测任务中的表现。
使用方法
BLAST数据集的使用方法主要分为三个步骤。首先,用户可以通过GitHub获取数据集生成代码和预训练模型代码。数据集以N×L矩阵形式提供,其中N为样本数量,L为固定长度4096,不足部分用NaN填充。其次,在模型训练阶段,建议采用与论文相同的平衡采样策略,即先进行网格采样确保模式多样性,再应用网格混合技术增强数据覆盖。最后,对于预测任务,可以直接使用在BLAST上预训练的模型进行零样本预测,或者将BLAST作为额外的训练数据来微调现有模型。实验表明,使用BLAST预训练的模型仅需传统方法约20%的计算资源和训练令牌就能达到最优性能。
背景与挑战
背景概述
BLAST(BaLAnced Sampling Time series corpus)是由中国科学院计算技术研究所的研究团队于2025年提出的一个大规模时间序列预测预训练语料库。该数据集由Zezhi Shao、Yujie Li、Fei Wang等学者共同开发,旨在解决通用时间序列预测模型训练中数据多样性不足的问题。BLAST整合了来自多个公开数据集的3210亿个观测点,通过创新的平衡采样策略,显著提升了预训练数据的多样性和代表性。该研究首次系统性地探讨了预训练数据多样性对模型训练效率和性能的影响,为时间序列预测领域提供了重要的基准数据集。BLAST的提出推动了通用时间序列预测模型的发展,其创新性的网格采样和网格混合技术为后续研究提供了新的方法论指导。
当前挑战
BLAST数据集主要面临两个层面的挑战:领域问题挑战和构建过程挑战。在领域问题层面,BLAST致力于解决通用时间序列预测模型中数据分布不平衡导致的模型泛化能力不足问题。现有大规模时间序列数据集普遍存在固有偏差和分布不均衡,导致模型容易过拟合频繁模式而忽略罕见模式。在构建过程层面,研究团队需要克服三大技术挑战:首先是如何从异构的时间序列中提取统一的特征表示,这涉及七种统计指标的协同计算;其次是高维特征空间的有效降维,需要平衡计算效率与结构保持;最后是设计创新的平衡采样算法,包括网格采样和网格混合技术,以确保数据分布的均衡性。这些挑战的解决使得BLAST能够为模型训练提供更具代表性的数据样本,显著提升预测性能。
常用场景
经典使用场景
在时间序列预测领域,BLAST数据集通过其平衡采样策略,为通用预测模型的预训练提供了多样化的时间序列模式。该数据集广泛应用于零样本预测任务,支持模型在未见过的领域进行准确预测。其经典使用场景包括多领域时间序列预测,如气象数据、交通流量和金融市场分析等。
实际应用
在实际应用中,BLAST数据集被用于训练高效的通用时间序列预测模型。这些模型可应用于智能交通系统、气象预报、能源需求预测等多个领域。例如,在气象预报中,基于BLAST预训练的模型能够准确预测未来天气变化,为灾害预警提供可靠支持。
衍生相关工作
BLAST数据集衍生了一系列经典工作,如TimeMoE、MOIRAI和Chronos等通用预测模型的改进版本。这些工作通过利用BLAST的平衡采样策略,显著提升了模型的训练效率和预测精度。此外,BLAST还启发了后续研究对数据多样性在时间序列预测中作用的深入探索。
以上内容由遇见数据集搜集并总结生成



