TimeSeriesBench

arXiv2024-02-26 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.10802v2

下载链接

链接失效反馈

官方服务：

资源简介：

一个工业级的基准，用于评估时间序列异常检测模型的性能，包含多种训练和测试范式、评估指标和数据集。

An industrial-grade benchmark for evaluating the performance of time series anomaly detection models, which includes multiple training and testing paradigms, evaluation metrics, and datasets.

创建时间：

2024-02-17

搜集汇总

数据集介绍

构建方式

在时间序列异常检测领域，现有基准往往难以满足工业级部署的实际需求。TimeSeriesBench的构建旨在弥合这一差距，其数据集整合了多个高质量的真实世界与合成数据源，包括AIOPS、WSD、Yahoo、NAB、UCR以及新发布的NEK工业数据集。这些数据覆盖了云计算、网络流量、设备监控等多个应用领域，确保了异常类型的多样性与分布的真实性。数据集的构建过程特别注重标签的准确性，通过与行业专家合作对在线系统数据进行精细标注，并排除了现有公共数据集中存在的标注缺陷。此外，还引入了基于TODS工具生成的合成数据，以增强异常的可解释性，为模型评估提供了更全面的数据基础。

使用方法

使用TimeSeriesBench时，研究人员可通过其开源工具包EasyTSAD进行一站式数据处理、模型训练与评估。该工具包提供了灵活的接口，支持用户集成私有数据集、实现新算法或开发定制评估标准。评估过程可基于三种学习范式展开：在单序列模式下针对每条曲线训练独立模型；在全统一模式下使用所有序列训练单一模型进行检测；在零样本模式下将数据集划分为不相交的子集，分别用于训练与测试，以评估模型对新序列的泛化能力。用户可通过在线排行榜提交结果，参与跨多种指标与数据集的综合性能比较，从而获得对算法工业适用性的深入洞察。

背景与挑战

背景概述

时间序列异常检测作为工业智能运维与物联网领域的关键技术，其算法评估长期缺乏统一且贴合工业实践的标准。为弥合学术研究与产业部署间的鸿沟，中国科学院计算机网络信息中心联合清华大学、南开大学等机构的研究团队于2024年提出了TimeSeriesBench。该基准旨在系统性地评估现有异常检测模型在真实工业场景下的泛化能力与部署可行性，其核心研究问题聚焦于解决大规模在线系统中模型维护成本高昂、对新出现时间序列的零样本检测能力不足，以及评估指标与工业需求脱节等痛点。通过构建持续维护的在线排行榜，TimeSeriesBench为算法研发与选型提供了权威的工业级评估框架，显著推动了时间序列分析领域向标准化、实用化方向发展。

当前挑战

TimeSeriesBench所应对的领域挑战主要体现于时间序列异常检测任务本身固有的复杂性：其一，工业场景中异常形态高度多样，涵盖点异常与模式异常，且数据常伴随高噪声与长期趋势干扰，对模型的鲁棒性与泛化能力构成严峻考验；其二，大规模监控系统需处理数以万计的时间序列，传统‘单序列单模型’范式带来难以承受的存储与计算开销，亟需探索高效的一体化训练与零样本推理范式。在数据集构建层面，挑战同样显著：公开数据集的标注质量参差不齐，存在异常密度失真或错误标注问题；为贴合工业实践，需设计兼顾检测延迟、误报容忍度与异常段长度的新型评估指标；此外，构建一个持续集成最新算法、支持多维评估设置的在线平台，亦需克服工程实现与社区维护的长期挑战。

常用场景

经典使用场景

在时间序列异常检测领域，TimeSeriesBench作为工业级基准，其经典使用场景在于系统性地评估各类算法在真实工业环境下的泛化能力与鲁棒性。该基准通过整合多种训练与推理范式，如All-in-One统一模型训练与Zero-Shot零样本推理，模拟了大规模在线系统中模型维护成本高昂、新时间序列不断涌现等实际挑战。研究人员可借助其提供的168种评估设置，在多数据集、多指标框架下，客观比较统计方法、深度学习模型乃至通用时间序列基础模型在点异常与模式异常检测上的性能差异，从而为算法选型与优化提供实证依据。

解决学术问题

TimeSeriesBench致力于解决时间序列异常检测研究中长期存在的评估标准不一致、与现实工业需求脱节等核心学术问题。传统方法通常为每条曲线训练独立模型，且评估多局限于历史-未来分割的封闭场景，忽视了系统部署升级中新曲线涌现的零样本检测需求。该基准通过引入All-in-One与Zero-Shot范式，首次系统评估了统一模型在新旧曲线上的泛化性能；同时，其提出的事件化评估指标（如Reduced-length PA）修正了传统点调整策略对长异常片段的分数膨胀问题，使评估更贴合工业运维中误报容忍度与异常严重性权衡的实际逻辑。

实际应用

在实际工业场景中，TimeSeriesBench为云系统监控、网络设备KPI异常检测、Web流量分析等关键领域提供了可落地的评估框架。例如，在大型分布式系统中，每日新增的数千条监控曲线使得传统逐曲线建模方式难以维护；该基准的All-in-One范式验证了单一统一模型在此类场景下的可行性，显著降低了模型存储与更新成本。同时，其发布的NEK（网络设备KPI）数据集包含业务专家精细标注的异常，为通信设备故障预警等应用提供了高质量训练与测试数据，助力企业构建高可靠实时异常检测流水线。

数据集最近研究