VisAnomBench

Name: VisAnomBench
Creator: 伊利诺伊大学厄巴纳-香槟分校; 桑迪亚国家实验室
Published: 2026-05-29 01:59:50
License: 暂无描述

arXiv2026-05-29 更新2026-05-30 收录

下载链接：

https://plan-lab.github.io/projects/VisAnom

下载链接

链接失效反馈

官方服务：

资源简介：

VisAnomBench是由伊利诺伊大学厄巴纳-香槟分校和桑迪亚国家实验室联合构建的视觉语言时序异常推理基准数据集。该数据集整合了KPI、GutenTAG、UCR-EGI和UCR-TSAD四个公开基准的3316条时间序列数据，涵盖工业监控、医疗诊断等多元领域，每条数据均包含可渲染的时序图像和基于多VLM筛选的高质量异常解释文本。数据集通过四阶段构建流程：首先对原始时序进行分段处理，然后转换为带坐标轴的图像表示，接着从四个通用视觉语言模型生成结构化输出，最后采用融合异常准确性、视觉可解释性、坐标轴一致性和逻辑清晰度的复合奖励机制筛选最优解释。该数据集旨在解决传统时序异常检测方法缺乏可解释性的问题，为视觉语言模型提供同时学习异常定位和视觉推理能力的监督信号，推动可解释人工智能在工业过程监控、医疗诊断等关键领域的应用。

VisAnomBench is a visual-language temporal anomaly reasoning benchmark dataset jointly constructed by the University of Illinois Urbana-Champaign and Sandia National Laboratories. This dataset integrates 3316 time series samples from four public benchmarks: KPI, GutenTAG, UCR-EGI and UCR-TSAD, covering multiple domains such as industrial monitoring and medical diagnosis. Each sample contains renderable temporal sequence images and high-quality anomaly explanation texts filtered by multiple VLMs. The dataset is built through a four-stage workflow: first, segmenting the original time series; second, converting them into image representations with coordinate axes; third, generating structured outputs via four general-purpose visual-language models; finally, selecting the optimal explanations using a composite reward mechanism that integrates anomaly accuracy, visual interpretability, coordinate axis consistency and logical clarity. This dataset aims to address the lack of interpretability in traditional time series anomaly detection methods, providing supervised signals for visual-language models to simultaneously learn anomaly localization and visual reasoning capabilities, and advancing the application of explainable artificial intelligence in key fields such as industrial process monitoring and medical diagnosis.

提供机构：

伊利诺伊大学厄巴纳-香槟分校; 桑迪亚国家实验室

创建时间：

2026-05-29

原始信息汇总

数据集概述

数据集名称：VisAnom Bench
所属项目：Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection
相关模型：VisAnom Reasoner（基于Qwen2.5-VL-3B和Qwen2.5-VL-7B的参数高效微调视觉语言模型）

构建来源

基于4个公开的时间序列异常检测数据集构建，涵盖多种领域和异常类型。

数据内容

为每个时间序列图提供：
1. 异常区间标注（interval annotations）
2. 时间上分步的解释（temporally grounded step-by-step explanations），与标注的异常对齐。

构建流程

将时间序列分割并渲染为图像。
从多个大型视觉语言模型（VLMs）中引出结构化推理轨迹。
使用一个结合异常定位准确性、视觉基础性、坐标轴感知性和清晰度的奖励机制，选择最高质量的解释。

数据规模

训练集：2,576 个时间序列样本
测试集：740 个时间序列样本（held-out）

应用目标

用于基于推理的异常检测模型的监督微调与评估。

搜集汇总

数据集介绍

构建方式

VisAnomBench 从 KPI、GutenTAG、UCR-EGI 和 UCR-TSAD 四个公开的时间序列异常检测基准中采掘数据，涵盖真实与合成序列，覆盖多元领域与异常类型。构建过程分为四阶段：首先将原始序列分割为可渲染为图像的窗口，且确保异常区间位于合理位置与比例；其次将每个窗口渲染为带有轴标签和上下文信息的图像；随后利用四个通用视觉语言模型生成候选的结构化输出，包括异常决策、区间定位与逐步推理；最后通过一个复合奖励函数综合评估候选输出的异常准确性、视觉可归因性、轴一致性与清晰度，对每个序列仅保留得分最高的一个作为微调监督目标。最终形成包含 2576 条训练序列与 740 条测试序列的数据集，序列长度从 200 到超过 10 万点不等。

特点

VisAnomBench 是首个为时间序列异常检测提供解释增强监督的基准，每个异常区间均配有临时可归因的自然语言推理说明，使模型不仅学习异常发生的位置，更理解其视觉与时间维度上的异常成因。其构建不依赖单一生成源，而是通过多模型候选与奖励排序获得更优质、更多样的监督信号，有效降低生成偏差。基准包含真实与合成数据，覆盖 KPI 监控、通用时间序列等多种领域，异常类型丰富，平均异常比例约 5%。序列切分与过滤策略确保了异常区间在窗口中的居中性与可渲染性，并通过多视觉语言模型交叉验证剔除标注质量低劣的样本，提升了监督信号的可靠性与多样性。

使用方法

VisAnomBench 专为监督微调视觉语言模型进行基于图像推理的时间序列异常检测而设计。使用时，将时间序列渲染为带有轴标签的二维折线图，模型需输出包含 <anomaly> 标签的异常决策、<index> 标签的定位区间以及 <think> 标签内的逐步推理说明。该基准支持在区间层面评估定位精度与召回，并额外提供重叠分数衡量时间边界对齐质量。研究者可直接利用基准提供的训练集对 Qwen2.5-VL 系列等轻量视觉语言模型进行参数高效微调，在测试集上评估异常检测与推理生成能力，并可进一步将微调模型迁移至 TSB-AD-U 等外部基准以验证跨域泛化性能。

背景与挑战

背景概述

时间序列异常检测在工业过程监控、医疗诊断及网络物理系统等关键领域中扮演着不可或缺的角色，其核心需求不仅在于精准定位异常发生的时刻，更在于提供可解释的推理以支撑后续决策。然而，传统检测方法往往止步于输出数值评分或二元标签，难以揭示异常背后的视觉与时间逻辑。在此背景下，来自伊利诺伊大学厄巴纳-香槟分校与桑迪亚国家实验室的研究团队于2025年提出了VisAnomBench基准数据集，旨在弥合视觉语言模型与时序异常推理之间的鸿沟。该数据集由KPI、GutenTAG、UCR-EGI及UCR-TSAD四个公开基准精心构建，覆盖多样领域与异常类型，并创新性地为每个异常区间配以时间对齐的自然语言解释，从而将时序异常检测重塑为基于图像的可视化推理任务。VisAnomBench的诞生为解释驱动的时序异常检测研究奠定了坚实基础，推动了该领域朝着更透明、更可信的方向演进。

当前挑战

VisAnomBench所直面的首要挑战在于时序数据本身固有的复杂性：时序图缺乏明确的物体边界与空间结构，模型需在缺乏离散视觉实体的场景下推理时间模式、周期性与偏差，这对通用视觉语言模型构成了严峻考验。其次，现有公开基准多仅提供区间或点级标注，缺乏自然语言解释，导致大规模监督微调无法有效实施。为此，VisAnomBench在构建过程中面临三重技术壁垒：第一，如何从多源异构时序数据中切割出适合图表渲染的窗口并确保异常区间有效；第二，如何激发多个大型视觉语言模型生成结构化异常决策与推理轨迹，并通过融合区间精度、视觉基础性、轴感知与清晰度的复合奖励函数从中筛选高质量候选；第三，如何解决模型在长时序场景中的上下文窗口限制与信息碎片化问题，最终实现精准的区间定位与可解释推理的联合学习。

常用场景

经典使用场景

VisAnomBench作为首个融合自然语言解释的时间序列异常检测视觉语言基准，其最经典的使用场景在于评估和训练多模态大模型在时间序列图像上的联合异常定位与推理能力。该数据集通过将时间序列渲染为带有坐标轴的折线图，并配以逐步骤的视觉推理注释，使得模型能够在图像表征上直接进行周期偏离、幅度突变等异常模式的识别。学术研究中，这一场景尤其适用于那些要求模型不仅输出异常区间，还需提供基于可视化证据的因果解释的任务，从而突破了传统基准仅提供区间标签的局限，为视觉语言模型在时间序列领域的纵深应用奠定了评估基础。

实际应用

在实际工业应用中，VisAnomBench所支持的方法展现出广泛而深远的部署潜力，尤其在需要对异常进行即时且可解释诊断的场景中表现突出。例如，在工业过程监控领域，运维人员可以依赖模型输出的结构化推理步骤迅速定位故障源头，而不必在冗长的数值日志中逐一排查；在医疗健康监测中，该框架能够辅助医生识别心率或脑电图信号中的异常波形，并提供从视觉证据到诊断结论的清晰推演链条。这种将视觉推理与时间序列分析深度融合的策略，为构建可信、透明的自动化监测决策系统提供了切实可行的技术路径。

衍生相关工作

基于VisAnomBench，研究者已催生出一系列富有价值的衍生工作，其中最典型的代表是团队同步提出的VisAnomReasoner模型。该模型沿用了数据集中奖励过滤后的高质量解释作为监督信号，通过参数高效的LoRA微调策略对Qwen2.5-VL基座模型进行适配，成功实现了在保持模型轻量级的同时显著提升异常定位精度与推理质量。此外，该框架的提出也推动了诸如VLM4TS等面向时序图像的专用检测方法的演进，并为后续将强化学习与偏好优化引入结构化区间预测的探索奠定了实验基础。这些衍生动向共同构筑了一个以视觉解释为中心的时间序列异常分析研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集