Anomaly-Instruct-125k
收藏arXiv2025-02-11 更新2025-02-13 收录
下载链接:
https://xujiacong.github.io/Anomaly-OV/
下载链接
链接失效反馈官方服务:
资源简介:
Anomaly-Instruct-125k是由约翰斯霍普金斯大学和本田研究所美国分公司创建的第一个视觉指令调优数据集,用于异常检测和推理。该数据集包含12.5万张图像,涵盖野外、工业、医疗和3D等多类图像样本,能够满足多种图像异常检测任务的需要,为视觉检测提供了一个统一的助手。
Anomaly-Instruct-125k is the first visual instruction-tuning dataset developed by Johns Hopkins University and Honda Research Institute USA, targeting anomaly detection and reasoning tasks. This dataset comprises 125,000 images covering diverse image samples across in-the-wild, industrial, medical, and 3D categories. It can meet the requirements of multiple image anomaly detection tasks, serving as a unified assistant for visual detection applications.
提供机构:
约翰斯霍普金斯大学, 本田研究所美国分公司
创建时间:
2025-02-11
搜集汇总
数据集介绍

构建方式
Anomaly-Instruct-125k数据集的构建旨在解决零样本异常检测和推理领域的数据稀缺问题。该数据集的建立过程涉及了从多个来源收集图像数据,包括MVTec AD、BMAD、Anomaly-ShapeNet、Real3D-AD和MVTec-3D AD等,涵盖了工业到医疗领域的2D到3D数据。为了进一步丰富数据集,研究者还设计了一个自动化的异常数据收集流程,结合了GPT-4o和Google Image Search,用于图像收集、数据清洗和指令生成。最终,Anomaly-Instruct-125k包含了大约72k张图像,来自380个类别,每个类别有超过5种异常类型。
特点
Anomaly-Instruct-125k数据集的特点在于其规模之大和多样性之广。它包含了从日常生活中的常见物体到工业和医疗领域的各种异常情况,使得模型能够学习到更为通用的正常和异常模式描述。此外,数据集的指令数据主要采用多轮对话的形式,覆盖了异常检测和描述的低级推理以及潜在原因和未来改进策略的复杂理解。这种结构有助于模型在文本基础的异常检测和推理任务中表现出色。
使用方法
Anomaly-Instruct-125k数据集的使用方法涉及两个独立的训练阶段。第一阶段,异常专家组件被训练以获得选择关键视觉标记的能力,针对传统的零样本异常检测。第二阶段,异常专家和视觉编码器被冻结,而投影仪和LLM是可训练的。除了指令数据集,研究者还从LLaVA-OneVision的原始训练食谱中采样了大约350k数据,以保持模型在常规指令上的泛化能力。模型在多个基准数据集上进行了评估,包括MVTec AD、VisA、AITEX、ELPV、BTAD、MPDD、BrainMRI、HeadCT和Br35H等。
背景与挑战
背景概述
视觉异常检测(AD)在计算机视觉领域是一项成熟的技术,广泛应用于工业缺陷检测和医疗影像诊断等场景。传统的无监督AD方法需要大量的正常样本进行模型训练,这在数据受限的现实场景中显得不切实际。为了解决这个问题,零样本异常检测(ZSAD)作为一种新兴的AD范式应运而生。最近,多模态大型语言模型(MLLMs)在各种视觉任务中展现出革命性的推理能力。然而,由于缺乏相应的数据集和基准,图像异常的推理研究仍然处于初级阶段。为了促进AD和推理研究,研究人员建立了首个视觉指令调整数据集Anomaly-Instruct-125k和评估基准VisA-D&R。
当前挑战
当前ZSAD领域面临着诸多挑战。首先,现有的MLLMs在图像异常推理方面存在局限性,无法准确检测和描述图像中的细粒度异常细节。其次,构建大规模的图像异常检测和推理数据集是一个巨大的挑战,需要大量的人力和时间投入。此外,如何有效地利用MLLMs进行异常检测和推理,并提高其准确性和可解释性,也是当前研究的重要方向。
常用场景
经典使用场景
Anomaly-Instruct-125k数据集被广泛应用于零样本异常检测和推理的研究中。该数据集提供了丰富的视觉指令,使得多模态大型语言模型(MLLMs)能够在没有特定异常样本的情况下,通过视觉指令进行训练,从而实现对图像中异常的检测和描述。此外,该数据集还包含了大量真实世界场景中的异常图像,使得模型能够在多样化的场景中进行训练和评估。
衍生相关工作
Anomaly-Instruct-125k数据集的建立推动了零样本异常检测和推理领域的研究。在此基础上,研究者们提出了Anomaly-OV模型,该模型通过引入视觉指令和异常专家,实现了对图像中异常的准确检测和描述。此外,Anomaly-Instruct-125k数据集还为构建统一的视觉异常检测和推理模型提供了可能,为未来研究提供了新的方向。
数据集最近研究
最新研究方向
Anomaly-Instruct-125k数据集及其评价基准VisA-D&R的建立,标志着零样本异常检测与推理研究迈入了一个新的阶段。该数据集专注于解决现有多模态大型语言模型(MLLMs)在图像异常推理方面的不足,通过引入Anomaly-OneVision(Anomaly-OV)模型,该模型利用LookTwice Feature Matching(LTFM)机制,自适应地选择和强调异常视觉标记,从而实现了在检测和推理方面对现有通用模型的显著改进。Anomaly-OV的成功表明,在特定领域引入专家模型以指导通用模型,可以有效地提升模型在特定任务上的性能。此外,Anomaly-Instruct-125k数据集的建立为未来研究提供了大量且多样化的数据支持,有助于推动零样本异常检测与推理技术的发展。
相关研究论文
- 1Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models约翰斯霍普金斯大学, 本田研究所美国分公司 · 2025年
以上内容由遇见数据集搜集并总结生成



