MMAD

Name: MMAD
Creator: 南方科技大学、腾讯优图实验室、阿尔伯塔大学、上海交通大学
Published: 2024-10-12T17:16:09+08:00

arXiv2024-10-12 更新2024-10-16 收录

企业异常检测

多语言大语言模型

数据链接：

https://github.com/jam-cc/MMAD 数据链接链接失效反馈

官方服务：

资源简介：

MMAD数据集是由南方科技大学和腾讯优图实验室等机构联合创建的首个用于工业异常检测的多模态大语言模型综合基准。该数据集包含39,672个多选题，基于8,366张工业图像，涵盖了38个工业产品类别和244种缺陷类型。数据集的创建过程结合了GPT-4V生成丰富的语义标注，并通过人工审核确保问题和选项的合理性与准确性。MMAD数据集主要应用于工业质量检测领域，旨在评估和提升多模态大语言模型在工业异常检测任务中的性能，解决传统方法在灵活性和详细报告生成方面的不足。

The MMAD dataset is the first comprehensive benchmark for multimodal large language model (LLM)-based industrial anomaly detection, jointly created by institutions including Southern University of Science and Technology and Tencent YouTu Lab. This dataset contains 39,672 multiple-choice questions based on 8,366 industrial images, covering 38 industrial product categories and 244 defect types. The dataset construction process leverages GPT-4V to generate rich semantic annotations, and ensures the rationality and accuracy of questions and options through manual review. The MMAD dataset is primarily applied in the field of industrial quality inspection, with the goal of evaluating and enhancing the performance of multimodal LLMs in industrial anomaly detection tasks, and addressing the limitations of traditional methods in terms of flexibility and detailed report generation.

提供机构：

南方科技大学、腾讯优图实验室、阿尔伯塔大学、上海交通大学

创建时间：

2024-10-12

搜集汇总

数据集介绍

构建方式

MMAD数据集的构建采用了创新性的管道，首先利用GPT-4V生成丰富的语义注释，结合视觉注释和语言交互。基于这些语义注释，生成测试问题和选项，并通过人工审查确保其合理性和准确性。最终，从4个公开数据集中收集了8,366个样本，涵盖38类工业产品，生成了总计39,672个多选题，分布在7个关键子任务中。

特点

MMAD数据集具有多模态和多任务的特点，涵盖了工业异常检测的7个关键子任务，包括异常判别、缺陷分类、缺陷定位、缺陷描述、缺陷分析、对象分类和对象分析。数据集包含了38个代表性的工业产品类别和244种缺陷类型，提供了丰富的语义注释和多选题，确保了对多模态大语言模型在工业异常检测任务中的全面评估。

使用方法

使用MMAD数据集时，研究者可以通过提供的多选题和语义注释，评估多模态大语言模型在工业异常检测任务中的表现。数据集支持1-shot、0-shot和few-shot等多种设置，研究者可以根据需要选择合适的设置进行模型评估。此外，数据集还提供了两种无需额外训练的性能提升方案，即检索增强生成（RAG）和专家代理，帮助模型在工业场景中提升性能。

背景与挑战

背景概述

在工业检测领域，多模态大语言模型（MLLMs）因其强大的语言能力和泛化能力，展现出在实际应用中革新现有范式的巨大潜力。然而，尽管MLLMs在多个领域展现出卓越的问题解决能力，其在工业异常检测（IAD）中的应用尚未得到系统研究。为填补这一空白，我们推出了MMAD，这是首个全面的多模态大语言模型在工业异常检测中的基准测试。MMAD通过定义七个关键子任务，设计了一个新颖的管道，生成了包含39,672个问题和8,366张工业图像的数据集。通过MMAD，我们对多种最先进的MLLMs进行了全面的定量评估，揭示了当前MLLMs在回答与工业异常和缺陷相关问题时仍有显著改进空间。

当前挑战

MMAD面临的挑战主要集中在两个方面：一是解决工业异常检测领域的问题，二是数据集构建过程中遇到的难题。首先，工业异常检测要求模型具备高精度的缺陷识别和定位能力，而当前MLLMs在这方面的表现远未达到工业需求。其次，构建过程中，现有公开数据集仅包含视觉感知注释和类别标签，缺乏丰富的语义注释，这使得直接评估MLLMs变得困难。为解决这一问题，我们设计了一个综合管道，利用GPT-4V生成丰富的语义注释，并通过人工审查确保其合理性和准确性。此外，当前MLLMs在处理多图像理解和细粒度工业知识方面仍显不足，这为未来的研究提供了重要方向。

常用场景

经典使用场景

MMAD数据集在工业异常检测领域中被广泛用于评估多模态大语言模型（MLLMs）的性能。其经典使用场景包括对工业图像进行详细的异常检测、缺陷分类、缺陷定位、缺陷描述和缺陷分析等任务。通过这些任务，MMAD能够全面评估MLLMs在工业检测中的语言理解和视觉感知能力，从而推动工业自动化和质量控制的发展。

衍生相关工作

基于MMAD数据集，研究者们开发了多种改进的多模态大语言模型，如AnomalyGPT和Myriad，这些模型在工业异常检测任务中表现出色。此外，MMAD还激发了关于如何通过检索增强生成（RAG）和专家代理（Expert Agent）等方法提升MLLMs性能的研究。这些衍生工作不仅扩展了MMAD的应用范围，还为工业领域的智能化发展提供了新的思路和方法。

数据集最近研究

MMAD

资源简介：

相关数据集