multi-task IAD dataset
收藏arXiv2025-07-29 更新2025-08-08 收录
下载链接:
https://github.com/guanwei49/EMIT?tab=readme-ov-file
下载链接
链接失效反馈官方服务:
资源简介:
本文提出了一种名为EMIT的框架,通过困难感知的组相对策略优化(GRPO)来增强多模态大型语言模型(MLLMs)在工业异常检测(IAD)中的表现。EMIT构建了一个多任务IAD数据集,并利用GPT生成的对象文本描述来补偿缺失的缺陷图像。对于少样本异常检测,它集成了软提示和热图引导的对比嵌入,这些嵌入来自图像块级别的比较。为了更好地处理困难的数据样本,即MLLM难以生成正确答案的情况,本文提出了一种困难感知的GRPO,通过引入响应重采样策略和优势重新加权机制来确保在采样的响应中包含正确答案并加强从困难数据样本中的学习。在MMAD基准上的广泛实验表明,EMIT显著增强了MLLMs的IAD性能,与基础模型(InternVL3-8B)相比,在七个任务上平均提高了7.77%。
This paper proposes a framework named EMIT that enhances the performance of Multimodal Large Language Models (MLLMs) in Industrial Anomaly Detection (IAD) via difficulty-aware Group Relative Policy Optimization (GRPO). EMIT constructs a multi-task IAD dataset and utilizes GPT-generated object text descriptions to compensate for missing defect images. For few-shot anomaly detection, it integrates soft prompts and heatmap-guided contrastive embeddings derived from patch-level image comparisons. To better handle difficult data samples, i.e., cases where MLLMs struggle to generate correct answers, this paper proposes a difficulty-aware GRPO that introduces a response resampling strategy and an advantage reweighting mechanism to ensure that correct answers are included in the sampled responses and strengthen learning from difficult data samples. Extensive experiments on the MMAD benchmark demonstrate that EMIT significantly boosts the IAD performance of MLLMs, achieving an average improvement of 7.77% across seven tasks compared to the baseline model InternVL3-8B.
提供机构:
Ant Group, Department of Computer Science and Engineering, Shanghai Jiao Tong University, Institute of Automation, Chinese Academy of Sciences
创建时间:
2025-07-29
搜集汇总
数据集介绍

构建方式
在工业异常检测领域,多任务IAD数据集的构建采用了创新的方法,结合了现有公开IAD数据集的标注信息,并通过GPT-4生成对象描述文本以弥补缺陷图像的缺失。具体而言,数据集将原始标注转化为四种多选问题类型,包括异常判别、缺陷分类、缺陷定位和对象分类。此外,通过输入正常对象图像和缺陷类型信息,利用GPT生成缺陷描述文本,从而在缺乏缺陷图像的情况下仍能进行模型训练。这种构建方式不仅丰富了数据集的语义结构,还显著提升了模型对工业异常的理解能力。
特点
该数据集的特点在于其多任务设计和语义增强。通过整合四种不同的任务类型,数据集能够全面评估模型在工业异常检测中的多方面能力。同时,利用GPT生成的文本描述弥补了视觉数据的不足,使得模型能够在缺乏实际缺陷图像的情况下进行有效训练。此外,数据集还包含了热图引导的对比嵌入,通过计算参考图像和查询图像之间的最小余弦距离生成热图,从而提供缺陷的位置和程度信息。这些特点使得数据集在工业异常检测领域具有高度的实用性和先进性。
使用方法
数据集的使用方法主要包括两个阶段:首先冻结多模态大语言模型(MLLM),并对软提示和投影器进行对齐,以增强异常判别和缺陷定位能力;随后采用难度感知的GRPO(Group Relative Policy Optimization)对整个模型进行微调。GRPO通过响应重采样策略和优势重加权机制,有效处理困难样本,确保模型能够从包含正确答案的响应中学习。此外,数据集支持少样本异常检测场景,通过结合软提示和对比嵌入,进一步提升模型性能。实验表明,该方法在MMAD基准测试中显著提升了基础模型的性能。
背景与挑战
背景概述
multi-task IAD dataset是由Ant Group、上海交通大学和中国科学院自动化研究所的研究团队于2025年创建的,旨在通过多模态大语言模型(MLLMs)提升工业异常检测(IAD)的性能。该数据集的核心研究问题在于解决传统IAD方法在提供全面解释和响应文本查询方面的不足。通过整合多任务学习和GPT生成的文本描述,该数据集显著提升了MLLMs在工业异常检测中的表现,并在MMAD基准测试中实现了平均7.77%的性能提升。
当前挑战
multi-task IAD数据集面临的挑战主要包括两方面:1) 领域问题的挑战:工业异常检测需要处理复杂的视觉和文本数据,传统方法在提供全面解释和多模态推理方面表现不足;2) 构建过程的挑战:数据集中缺陷图像的缺失问题通过GPT生成的文本描述来补偿,但这要求模型具备强大的跨模态对齐能力。此外,数据集的构建还需处理多任务学习的复杂性,包括异常判别、缺陷分类、缺陷定位和物体分类等任务的整合。
常用场景
经典使用场景
在工业制造领域,异常检测是确保产品质量和生产安全的关键环节。multi-task IAD dataset通过整合多种任务(如异常判别、缺陷分类、缺陷定位和对象分类),为多模态大语言模型(MLLMs)提供了全面的训练数据。该数据集特别适用于需要结合视觉和语言信息进行复杂推理的场景,例如在缺乏缺陷图像时,利用GPT生成的文本描述作为补充,实现少样本异常检测。
解决学术问题
该数据集解决了工业异常检测中数据稀缺和标注成本高昂的问题。通过多任务设计和文本-图像对齐,它弥补了传统方法在语义理解和交互能力上的不足。此外,其提出的难度感知GRPO(Group Relative Policy Optimization)优化了模型对困难样本的学习能力,显著提升了MLLMs在复杂工业场景下的性能(平均提升7.77%)。这一进展为跨模态推理和小样本学习提供了新的研究范式。
衍生相关工作
基于该数据集衍生的EMIT框架,催生了一系列工业异常检测的创新研究。例如AnomalyR1通过引入推理对齐指标(ROAM)优化奖励机制,LR-IAD设计了针对类不平衡的焦点奖励策略。此外,OmniAD等研究进一步探索了多模态推理与预训练模型的结合方式,推动了领域内从单一检测向解释性、交互式系统的演进。
以上内容由遇见数据集搜集并总结生成



