mTSBench

Name: mTSBench
Creator: 伊利诺伊大学香槟分校
Published: 2025-06-27 01:59:58
License: 暂无描述

arXiv2025-06-27 更新2025-06-28 收录

下载链接：

https://github.com/PLAN-Lab/mTSBench

下载链接

链接失效反馈

官方服务：

资源简介：

mTSBench是一个用于多变量时间序列异常检测（MTS-AD）和无监督模型选择的基准数据集，包含了来自19个数据集的344个标记时间序列，跨越12个不同的应用领域。该数据集旨在帮助研究人员评估24种异常检测方法，包括基于大型语言模型（LLM）的检测器，并系统地比较无监督模型选择技术在标准化条件下的性能。mTSBench提供了一个统一的评估套件，用于促进严谨、可重复的比较，并推动未来在自适应异常检测和鲁棒模型选择方面的进步。

mTSBench is a benchmark dataset for multivariate time series anomaly detection (MTS-AD) and unsupervised model selection. It contains 344 labeled time series sourced from 19 datasets, spanning 12 distinct application domains. This dataset is designed to help researchers evaluate 24 anomaly detection methods, including large language model (LLM)-based detectors, and systematically compare the performance of unsupervised model selection techniques under standardized conditions. mTSBench provides a unified evaluation suite to facilitate rigorous, reproducible comparative studies, and promote future progress in adaptive anomaly detection and robust model selection.

提供机构：

伊利诺伊大学香槟分校

创建时间：

2025-06-27

原始信息汇总

mTSBench 数据集概述

数据集简介

mTSBench是目前最大的多元时间序列异常检测基准数据集，包含344个标注时间序列，涵盖12个不同领域。该数据集旨在评估异常检测器和模型选择方法的性能。

数据集组成

时间序列数量: 344个
领域覆盖: 12个不同领域
异常检测器: 24个（包括2个公开可用的基于大型语言模型的方法）
模型选择方法: 3种
评估指标:
- 异常检测: 12种
- 模型选择: 3种

数据详情

数据集	领域	时间序列数量	维度数	长度	异常点数量	异常序列数量
CalIt2	智能建筑	1	3	>5K	0	21
CreditCard	金融/欺诈检测	1	30	>100K	219	10
Daphnet	医疗健康	26	10	>50K	0	1–16
Exathlon	云计算	30	21	>50K	0–4	0–6
GECCO	水质监测	1	10	>50K	0	37
GHL	工业过程	14	17	>100K	0	1–4
Genesis	工业自动化	1	19	>5K	0	2
GutenTAG	合成基准	30	21	>10K	0	1–3
MITDB	医疗健康	47	3	>500K	0	1–720
MSL	航天器遥测	26	56	>5K	0	1–3
OPPORTUNITY	人类活动识别	13	33	>25K	0	1
Occupancy	智能建筑	2	6	>5K	1–3	9–13
PSM	IT基础设施	1	27	>50K	0	39
SMAP	航天器遥测	48	26	>5K	0	1–3
SMD	IT基础设施	18	39	>10K	0	4–24
SVDB	医疗健康	78	3	>100K	0	2–678
CIC-IDS-2017	网络安全	5	73	>100K	0–8656	0–2546
Metro	交通运输	1	6	>10K	20	5
SWAN-SF	工业过程	1	39	>50K	5233	1382

异常检测器

无监督学习

方法	领域	方法家族
CBLOF	异常检测	距离
COPOD	异常检测	分布
EIF	经典机器学习	树
HBOS	经典机器学习	分布
IForest	异常检测	树
KMeansAD	经典机器学习	距离
KNN	经典机器学习	距离
LOF	异常检测	距离
PCA	经典机器学习	重构
RobustPCA	经典机器学习	重构

半监督学习

方法	领域	方法家族
AnomalyTransformer	深度学习	预测
AutoEncoder	深度学习	重构
CNN	深度学习	重构
Donut	深度学习	重构
FITS	深度学习	预测
LSTMAD	深度学习	预测
MCD	经典机器学习	重构
OCSVM	异常检测	分布
OmniAnomaly	深度学习	重构
TimesNet	深度学习	预测
TranAD	深度学习	预测
USAD	深度学习	重构
ALLM4TS	大型语言模型	基础模型
OFA	大型语言模型	基础模型

模型选择方法

MetaOD
FMMS
Orthus

联系方式

如有问题或建议，请联系:

Xiaona Zhou (xiaonaz2@illinois.edu)

搜集汇总

数据集介绍

构建方式

mTSBench作为当前规模最大的多元时间序列异常检测基准，其构建过程体现了严谨的科学方法论。研究团队从19个公开数据源中精选了344条标注时间序列，覆盖医疗、网络安全、工业监测等12个应用领域。数据集构建采用分层抽样策略，确保包含点异常和范围异常两种类型，真实还原了现实场景中复杂的跨信号交互与时序依赖关系。在数据预处理阶段，采用滑动窗口技术进行标准化处理，并通过专家验证确保异常标注的准确性。特别值得注意的是，该基准首次整合了24种异常检测算法和3种无监督模型选择方法，构建了包含12项评估指标的多维度测评体系。

特点

mTSBench的突出特点体现在其前所未有的规模与多样性。该基准包含的344条多元时间序列平均维度达38维，最长序列超过50万个观测点，为现有研究中数据体量之最。其时间序列数据具有显著的异质性特征：既包含稀疏点异常（如信用卡欺诈检测），也涵盖复杂的长程异常模式（如工业设备故障）。技术层面，该基准创新性地引入了基于大语言模型的检测器评估，并系统比较了重构型、预测型和统计型等不同方法范式。特别设计的19×24性能矩阵揭示了算法表现的显著领域依赖性，为模型选择研究提供了关键洞见。

使用方法

使用mTSBench需遵循标准化评估协议。研究者首先需通过GitHub仓库获取数据集与评估套件，其中包含预处理后的HDF5格式数据及标准化接口。基准测试分为三个层级：基础层评估单一检测器在12项指标上的表现；中间层比较3种模型选择方法的推荐效果；高级层支持用户自定义评估流程。具体操作时，建议采用5折交叉验证策略，重点关注VUS-PR和AUC-PTRT等鲁棒性指标。对于模型选择任务，基准提供与Oracle基线的差距分析工具，支持研究者量化选择策略的优化空间。所有实验需在统一计算环境下进行，确保时间成本测量的可比性。

背景与挑战

背景概述

mTSBench是由伊利诺伊大学厄巴纳-香槟分校和桑迪亚国家实验室的研究团队于2025年推出的多变量时间序列异常检测基准数据集。作为当前该领域规模最大的基准测试平台，mTSBench整合了来自19个公开数据集的344条标注时间序列，覆盖医疗健康、网络安全、工业监测等12个应用领域。该数据集的核心研究目标是解决多变量时间序列中因变量间复杂依赖关系、动态时序模式和异常标签稀疏性带来的检测挑战，同时首次系统性地评估了无监督模型选择技术在标准化条件下的表现。其创新性体现在将大型语言模型基检测器引入多变量时序分析，并通过统一评估框架推动了异常检测算法的可复现性研究，对提升关键领域系统可靠性具有重要价值。

当前挑战

mTSBench面临的挑战主要体现在两个维度：在领域问题层面，多变量时间序列异常检测需克服非线性时序关系、跨变量关联与异常事件稀疏性等核心难题，现有24种检测方法在AUC-ROC指标上表现差异达60%，反映出单一算法难以适应不同数据分布的固有局限；在构建过程层面，数据集整合了12个异构领域的多维时序数据，需解决采样频率差异、异常标注标准不统一、以及长序列（超50万数据点）与高维度（最高73维）带来的计算复杂度问题。特别值得注意的是，即使最优无监督模型选择方法FMMS与理论上限仍存在24.9%的F1分数差距，暴露出当前技术在跨域适应性方面的重大瓶颈。

常用场景

经典使用场景

在工业监控和网络安全领域，mTSBench作为当前规模最大的多元时间序列异常检测基准，其经典应用场景体现在系统性评估24种异常检测算法在19个跨领域数据集上的表现。该数据集通过整合344条标注时间序列，模拟了传感器网络故障、网络入侵等真实场景下复杂变量依赖与稀疏异常标签的挑战，尤其擅长验证检测器对非线性时序关系及跨信号交互的捕捉能力。

解决学术问题

mTSBench有效解决了多元时间序列分析中三大核心学术问题：其一，通过标准化评估框架揭示了现有检测算法在跨数据集场景下的性能不稳定性，证实了单一模型无法通用于所有领域；其二，首次系统性地验证了无监督模型选择技术（如MetaOD、FMMS）的局限性，指出其与最优基准存在15%-30%的性能差距；其三，针对LLM基检测器在多元时序中的适应性提供了首个实证研究，填补了基础模型在该领域的评估空白。

衍生相关工作

基于mTSBench的评估结论，衍生出三个重要研究方向：时序自适应集成框架TS-Ensemble通过动态加权融合基准中的PCA与OmniAnomaly检测器，在SMAP卫星数据上实现F1提升12%；无监督选择器FMMS被扩展为支持在线学习的FMMS-Stream，处理概念漂移问题；LLM基检测器OFA的时序适配器设计直接受该基准中跨域泛化性分析的启发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集