MMR-AD

Name: MMR-AD
Creator: 上海交通大学·信息科学与电子工程学院; 上海交通大学·人工智能研究院·人工智能教育部重点实验室
Published: 2026-04-13 12:14:56
License: 暂无描述

arXiv2026-04-13 更新2026-04-17 收录

下载链接：

https://xcyao00.github.io/MMR-AD

下载链接

链接失效反馈

官方服务：

资源简介：

MMR-AD是由上海交通大学团队构建的大规模多模态工业异常检测数据集，旨在推动基于多模态大语言模型的通用异常检测研究。该数据集包含来自14个公开AD数据集的127137个样本，涵盖188种产品类别和395种异常类型，并包含112875个标注异常区域。数据集构建过程中，团队通过人工筛选和标注确保了数据质量，并利用Qwen2.5-VL-72B模型自动生成包含详细推理步骤的文本内容。MMR-AD适用于训练和评估多模态大语言模型在工业场景下的通用异常检测能力，尤其擅长解决细粒度异常定位和跨类别泛化问题。

MMR-AD is a large-scale multimodal industrial anomaly detection dataset constructed by the team from Shanghai Jiao Tong University, aiming to promote general-purpose anomaly detection research based on multimodal large language models. This dataset contains 127,137 samples sourced from 14 public anomaly detection (AD) datasets, covering 188 product categories and 395 anomaly types, with 112,875 annotated anomaly regions. During the dataset construction process, the team ensured data quality through manual screening and annotation, and utilized the Qwen2.5-VL-72B model to automatically generate text content containing detailed reasoning steps. MMR-AD is suitable for training and evaluating the general anomaly detection capabilities of multimodal large language models in industrial scenarios, and is particularly effective in addressing fine-grained anomaly localization and cross-category generalization challenges.

提供机构：

上海交通大学·信息科学与电子工程学院; 上海交通大学·人工智能研究院·人工智能教育部重点实验室

创建时间：

2026-04-13

原始信息汇总

MMR-AD数据集概述

数据集名称

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models

数据集简介

MMR-AD是一个用于基准测试多模态大语言模型通用异常检测的大规模多模态数据集。该数据集通过为公开可用的异常检测数据集图像生成文本数据构建而成。

数据集来源与构建

原始图像来源：来自14个公开可用的异常检测数据集，包括MVTecAD、VisA、MVTecLOCO、MVTec3D、MPDD、GoodsAD、RealIAD、RealIAD-D3、MANTA、MIAD、CableInspect、WFDD、TextureAD和3CAD。
数据质量控制：对约19万张原始图像进行了人工检查，移除了低质量样本。
人工标注：为异常区域手动标注了边界框和文本标签，以辅助后续文本生成并评估模型准确定位异常的能力。

文本生成方法

采用自动流水线，利用Qwen2.5-VL-72B的视觉推理能力生成文本数据。具体流程包括：

为每个输入样本提供一个空间对齐的最近邻正常参考样本。
通过比较输入图像与参考图像，指导模型生成与异常检测相关的文本数据。
提供额外的视觉和文本提示以增强生成效果：
- 视觉提示：在输入图像的异常区域绘制红色边界框。
- 文本提示：包含异常区域的边界框坐标和对应的异常类型（例如："the location and label of the abnormal area is ([xmin, ymin, xmax, ymax], broken)"）。

数据集组织与结构

数据集采用层级目录结构，以MVTec子数据集中的"bottle"类别为例：

bbox_annos.json：包含原始边界框标注。
text_annos.json：包含标注的文本数据。
reference.json：存储每张图像的参考图像集。
ground_truth：包含掩码标注。
test：根据异常类型分为子目录，每个子目录包含对应异常类型的异常样本。
test_good：包含正常测试样本。
train_good：包含正常训练样本。

数据集获取

可通过以下链接下载数据集：

Hugging Face：https://huggingface.co/
Model Scope：https://modelscope.cn/

引用信息

bibtex @inproceedings{yao2026mmr, title={MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models}, author={Xincheng Yao, Zefeng Qian, Chao Shi, Jiayang Song, Chongyang Zhang}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={00000--00000}, year={2026} }

搜集汇总

数据集介绍

构建方式

在工业异常检测领域，构建大规模多模态数据集是推动基于多模态大语言模型的通用异常检测研究的关键。MMR-AD数据集通过整合14个公开异常检测数据集，包括MVTecAD、VisA等，收集了127,137张图像，涵盖188个产品类别和395种异常类型。为确保数据质量，研究团队对所有原始图像进行了人工审核，剔除了低质量样本，并手动标注了异常区域的边界框和文本标签。针对文本数据的缺失，设计了一套自动化流水线，利用Qwen2.5-VL-72B模型生成包含详细推理步骤的文本内容，通过视觉提示和语言提示引导模型基于正常参考图像进行比较分析，从而生成高质量的思维链数据。

特点

MMR-AD数据集在规模和质量上均表现出显著优势，其图像样本全部源自真实工业场景，确保了数据的多样性和真实性。该数据集提供了丰富的异常类型和精确的边界框标注，支持模型进行细粒度的异常定位评估。与现有多模态异常检测数据集相比，MMR-AD首次引入了大规模的思维链文本，平均每个样本包含208个文本标记，增强了模型决策的可解释性。数据集的模块化结构允许研究人员灵活划分训练和测试子集，便于进行跨数据集的通用异常检测性能评估。

使用方法

MMR-AD数据集主要用于训练和评估基于多模态大语言模型的通用异常检测方法。研究人员可以将数据集划分为多个子集，例如以MVTecAD或VisA作为测试集，其余子集用于训练，以模拟模型在未见类别上的泛化能力。数据集中提供的正常参考图像和思维链文本能够引导模型学习逐步分析和比较的推理过程，提升异常检测的准确性。此外，数据集支持强化学习等高级训练策略，如通过规则奖励函数优化模型的异常定位性能。基于该数据集构建的基线模型Anomaly-R1展示了通过监督微调和强化学习后，在异常检测和定位任务上的显著改进。

背景与挑战

背景概述

在工业异常检测领域，通用异常检测作为新兴趋势与终极目标，旨在构建无需目标数据再训练或微调即可直接识别多样新类别异常的通用模型。由上海交通大学团队于2026年创建的MMR-AD数据集，作为当前规模最大的多模态推理工业异常检测基准，通过整合14个公开数据集并引入自动化文本生成流程，提供了包含12.7万样本、188个产品类别与395种异常类型的丰富资源。该数据集不仅填补了多模态异常检测数据空白，更通过链式推理文本与精确边界框标注，为基于多模态大语言模型的通用异常检测研究奠定了关键基础。

当前挑战

MMR-AD数据集致力于解决通用异常检测的核心挑战，即模型在未见类别上实现零样本异常识别与定位的泛化能力不足问题。构建过程中面临双重困难：其一，现有公开数据集多为图像模态且存在标注质量参差，需耗费大量人工进行样本清洗与边界框标注；其二，多模态数据生成需克服文本标注缺失的瓶颈，研究团队通过设计自动化流水线，利用强大多模态大语言模型生成包含详细推理步骤的文本，并引入视觉与语言提示以确保生成内容与异常区域的精确对齐，最终实现了高质量多模态数据的大规模构建。

常用场景

经典使用场景

在工业异常检测领域，通用异常检测旨在构建无需针对特定类别进行重新训练或微调的普适性模型。MMR-AD数据集通过整合来自14个公开数据集的127,137个样本，涵盖188个产品类别和395种异常类型，为基于多模态大语言模型的通用异常检测研究提供了大规模、高质量的基准平台。其经典使用场景在于训练和评估模型在未见类别上的零样本异常检测与定位能力，通过提供包含正常参考图像与输入图像对的样本，以及富含推理步骤的文本注释，引导模型学习跨类别的分析与比较机制。

实际应用

在实际工业场景中，MMR-AD数据集可应用于智能制造、产品质量检测与设备维护等领域。例如，在电子元件或食品包装的生产线上，模型能够直接利用该数据集训练的通用检测系统，快速识别新产品中的表面缺陷、结构损坏或装配错误，无需针对每个产品类别收集大量标注数据。其提供的精确边界框标注与推理文本支持模型不仅输出检测结果，还能给出可解释的异常分析，有助于提升自动化检测系统的可靠性与部署效率。

衍生相关工作

基于MMR-AD数据集，研究者提出了Anomaly-R1基线模型，该模型通过监督微调与强化学习结合的方式，在Qwen2.5-VL基础上进行领域适配，显著提升了异常检测与定位性能。相关工作还包括对GPT系列、Gemini等通用多模态大语言模型的系统性评估，揭示了其在精细异常检测任务上的局限性。这些工作推动了如AnomalyGPT、Myriad等早期多模态异常检测模型的演进，并促进了基于思维链的推理模型在工业视觉任务中的应用，为后续研究提供了数据基础与方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集