five

BLAST|时间序列分析数据集|人工智能数据集

收藏
arXiv2025-05-23 更新2025-05-27 收录
时间序列分析
人工智能
下载链接:
https://github.com/GestaltCogTeam/BasicTS, https://github.com/GestaltCogTeam/BLAST
下载链接
链接失效反馈
资源简介:
BLAST数据集由中国科学院计算技术研究所人工智能安全重点实验室创建,是一个包含3210亿个观察值的大型时间序列数据集。该数据集通过平衡采样策略增强数据多样性,利用统计指标对时间序列模式进行特征化,并通过网格分区进行数据隐式聚类。此外,通过结合网格采样和网格混合技术,BLAST确保了对不同模式的有代表性和平衡的覆盖。实验结果表明,在BLAST上进行预训练的模型在训练效率和模型性能方面均取得了显著优势。
提供机构:
中国科学院计算技术研究所人工智能安全重点实验室
创建时间:
2025-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
BLAST数据集的构建采用了创新的平衡采样策略,旨在解决大规模时间序列数据中存在的固有偏差和分布不平衡问题。首先,研究者整合了来自公开数据集的3210亿个观测点,并通过一系列统计指标(如平稳性、季节性、波动性等)对时间序列模式进行全面刻画。随后,利用基于网格的隐式聚类方法对数据进行模式导向的分组,并通过网格采样(Grid Sampling)和网格混合(Grid Mixup)技术,确保不同模式的数据得到均衡且具有代表性的覆盖。这种构建方式不仅优化了数据多样性,还显著提升了模型训练的效率和泛化能力。
特点
BLAST数据集的核心特点在于其通过统计特征驱动的模式平衡机制。该数据集包含多维度的统计属性描述,如趋势强度、季节周期、异方差性等,这些特征通过离散化和降维技术被统一编码为61维的特征向量。此外,数据集通过UMAP算法将高维特征投影至二维空间,直观揭示了原始数据分布的偏态问题,并采用网格化采样策略主动修正数据偏差。实验表明,基于BLAST预训练的模型仅需传统方法20%的计算资源和18.7%的训练token量,即可达到当前最先进的零样本预测性能,体现了其在数据效率与模型性能上的双重优势。
使用方法
使用BLAST数据集时,研究者可通过其提供的标准化接口直接获取经预处理的4096长度时间序列样本(短序列以NaN右填充)。数据集支持两种主要应用范式:一是作为通用预训练语料库,用户可基于网格采样策略微调自有模型,显著提升跨领域时间序列预测的零样本能力;二是作为基准测试平台,通过内置的ETT、Weather等评估子集验证模型泛化性。配套开源代码库(GitHub/GestaltCogTeam)提供了完整的训练流水线,包括特征构建、平衡采样及混合数据增强的实现,支持在8块A100GPU环境下高效完成模型训练。
背景与挑战
背景概述
BLAST(BaLAnced Sampling Time series corpus)是由中国科学院计算技术研究所的研究团队于2025年提出的一个大规模时间序列预测预训练语料库。该数据集旨在解决通用时间序列预测模型在训练过程中面临的数据多样性不足问题。BLAST整合了来自多个公开数据集的3210亿个观测点,通过平衡采样策略确保数据分布的多样性和代表性。其核心研究问题在于如何通过统计特征量化和聚类时间序列模式,并利用网格采样和网格混合技术生成均衡的预训练数据。BLAST的提出显著提升了通用预测模型的训练效率和零样本预测性能,为时间序列分析领域的数据集构建提供了新的方法论范式。
当前挑战
BLAST面临的挑战主要体现在两个层面:在领域问题层面,通用时间序列预测模型需要处理多领域、多模式的时间序列数据,而现有大规模数据集往往存在固有偏差和分布不平衡问题,导致模型泛化能力受限。在构建过程层面,主要挑战包括:1)如何设计全面的统计指标来量化时间序列的复杂模式特征;2)如何在高维特征空间实现高效且可解释的隐式聚类;3)如何开发有效的平衡采样算法以解决原始数据的长尾分布问题;4)如何在不损失信息的情况下将异构统计特征统一为标准化表示。此外,处理超大规模时间序列数据(约4000万条序列)的计算效率和存储优化也是关键工程挑战。
常用场景
经典使用场景
在时间序列预测领域,BLAST数据集通过其平衡采样策略,为通用预测模型的预训练提供了多样化的时间序列模式。该数据集整合了来自多个公开数据集的3210亿个观测点,通过统计特征分析和网格划分技术,确保了训练数据的多样性和平衡性。其经典使用场景包括零样本预测、多领域时间序列分析以及长期趋势和季节性模式的建模。
实际应用
在实际应用中,BLAST数据集被广泛用于气象预测、交通流量分析、金融市场预测等领域。其平衡采样的特性使得模型能够适应不同领域的时间序列数据,提供准确的预测结果。例如,在气象预测中,BLAST帮助模型同时捕捉长期气候趋势和短期天气变化;在交通领域,它能够平衡处理高峰和低谷时段的流量数据,提升预测的鲁棒性。
衍生相关工作
BLAST数据集的推出催生了一系列相关研究,包括基于网格采样的新型时间序列模型、多任务学习框架以及高效预训练方法。例如,TimeMoE模型通过结合BLAST数据集的平衡采样策略,在减少训练资源的同时实现了最优性能。此外,BLAST还启发了对时间序列数据多样性的深入研究,推动了通用预测模型在跨领域应用中的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录