MMR-AD
收藏Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/xcyao00/MMR-AD
下载链接
链接失效反馈官方服务:
资源简介:
MMR-AD 是一个大规模多模态工业异常检测数据集,旨在促进基于多模态大语言模型(MLLMs)的通用异常检测(GAD)研究。该数据集包含 127,137 张高质量工业图像,涵盖 188 个产品类别和 395 种异常类型,提供了 112,875 个标注的异常区域(边界框)。与以往数据集不同,MMR-AD 为每个样本提供了详细的链式推理(CoT)文本,使模型能够学习逐步分析和比较。数据集汇集并清理了来自 14 个公共工业 AD 数据集(如 MVTecAD、VisA、RealIAD 等)的数据,确保了真实世界的领域偏移。数据集结构按子数据集组织,便于跨域评估,每个样本包括参考图像、待检测图像、推理文本和最终检测结果(含边界框坐标和异常标签)。MMR-AD 适用于 MLLMs 的微调、通用 AD 研究以及推理研究。
创建时间:
2026-03-21
原始信息汇总
MMR-AD 数据集概述
数据集基本信息
- 数据集名称:MMR-AD (A Large-Scale Multimodal Dataset for General Anomaly Detection)
- 许可协议:MIT
- 相关会议:CVPR 2026
核心特性
- 大规模:包含 127,137 张高质量工业图像,涵盖 188 个产品类别。
- 丰富标注:覆盖 395 种异常类型,提供 112,875 个标注的异常区域(边界框)。
- 基于推理的文本:为每个样本提供详细的 Chain-of-Thought (CoT) 推理文本,支持模型进行逐步分析和比较学习。
- 多源数据:汇集并清理自 14 个公开工业异常检测数据集(例如 MVTecAD, VisA, RealIAD),确保真实世界的域偏移。
- 基准就绪:为基于多模态大语言模型的通用异常检测模型的训练和评估而结构化设计。
关键统计信息
| 指标 | 数值 |
|---|---|
| 总图像数 | 127,137 |
| 产品类别数 | 188 |
| 异常类型数 | 395 |
| 标注区域数 | 112,875 |
| 文本总词元数 | ~26 Million |
| 平均每样本词元数 | 208 |
数据组织结构
数据集按子数据集组织,以方便跨域评估:
MMR-AD/ ├── MVTecAD/ ├── VisA/ ├── RealIAD/ └── ... (14 subdatasets)
每个样本包含以下字段:
reference_image:正常参考样本图像。input_image:待检测图像。reasoning_text:详细的 CoT 分析文本(隐藏在<think>标签内)。answer:包含边界框坐标和异常标签的最终检测结果。
边界框标注说明
所有 bbox 标注均归一化至 448 分辨率。具体而言,保持原始图像宽高比,并将图像的短边缩放至 448 像素。坐标应基于此调整后的尺寸进行解释。
主要应用场景
- 多模态大语言模型的后训练:用于微调如 Qwen-VL、LLaVA 或 InternVL 等模型,以进行工业检测。
- 通用异常检测研究:评估模型在未见过的产品类别上的泛化能力。
- 推理研究:分析 Chain-of-Thought 对视觉异常检测的影响。
引用信息
如果研究中使用 MMR-AD,请引用以下论文:
@inproceedings{yao2026mmrad, title={MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models}, author={Yao, Xincheng and Qian, Zefeng and Shi, Chao and Song, Jiayang and Zhang, Chongyang}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2026} }
搜集汇总
数据集介绍

构建方式
在工业异常检测领域,数据集的构建质量直接决定了模型泛化能力的上限。MMR-AD数据集通过系统性地整合与清洗来自14个公开工业异常检测数据集(如MVTecAD、VisA、RealIAD等)的样本,构建了一个大规模、多源异构的数据集合。其构建过程不仅保留了原始数据的真实域偏移特性,还对所有图像进行了标准化处理,将较短边统一缩放至448像素,并在此基础上提供了归一化的边界框标注。更为关键的是,该数据集为每个样本精心撰写了基于链式思维(CoT)的详细推理文本,这些文本被隐藏在特定标签中,旨在引导模型进行逐步分析与比较,从而形成了涵盖127,137张高质量图像、188个产品类别及395种异常类型的综合性资源。
特点
MMR-AD数据集的核心特征体现在其规模、多样性与标注深度上。作为当前最大规模的多模态工业异常检测数据集,它囊括了超过12万张图像,覆盖近两百个产品类别,确保了数据的广泛代表性。数据集提供了112,875个精确标注的异常区域边界框,所有坐标均基于448像素的标准化分辨率,保障了标注的一致性。区别于传统数据集,MMR-AD创新性地引入了链式思维推理文本,每条文本平均包含208个令牌,总计约2600万令牌,为模型提供了丰富的语义上下文与逻辑分析框架。这种多模态融合设计,结合来自多个真实工业场景的数据源,使得该数据集特别适用于评估模型在未知类别上的泛化能力与推理性能。
使用方法
MMR-AD数据集为多模态大语言模型在工业异常检测中的研究与应用提供了结构化基准。研究者可将其用于模型的后续训练,例如对Qwen-VL、LLaVA或InternVL等模型进行微调,以提升其在工业质检任务中的感知与推理能力。数据集按子数据集组织,支持跨域评估,用户可以在特定子集上训练模型,然后在未见过的产品类别上进行测试,从而系统评估模型的泛化性能。此外,其内含的链式思维文本为研究推理机制对视觉异常检测的影响提供了独特素材,可用于分析模型的分步决策过程。整体而言,该数据集直接服务于通用异常检测的前沿探索,为训练与评估提供了标准化、可复现的实验基础。
背景与挑战
背景概述
在工业视觉检测领域,通用异常检测旨在开发能够跨多种产品和场景识别缺陷的智能系统。MMR-AD数据集由姚鑫成、钱泽峰等研究人员于2026年构建,并在CVPR会议上发布,标志着该领域向多模态大语言模型应用的重要迈进。该数据集整合了来自MVTecAD、VisA等14个公开数据源的127,137张高质量工业图像,涵盖188个产品类别和395种异常类型,其核心研究问题在于如何利用链式思维文本引导模型进行逐步推理,从而提升对未知类别异常的泛化检测能力。MMR-AD的推出为多模态推理在工业质检中的实际应用提供了大规模基准,推动了通用异常检测从传统视觉方法向语义理解与逻辑分析相结合的范式转变。
当前挑战
通用异常检测面临的核心挑战在于模型需在高度多样化的工业场景中,准确识别未曾见过的产品缺陷,这要求算法具备强大的跨域泛化与语义推理能力。MMR-AD数据集构建过程中,研究人员需克服多源数据整合的复杂性,包括统一来自14个异构数据集的标注标准与图像分辨率,并设计高质量的链式思维文本以描述异常区域的逐步分析过程。此外,确保112,875个边界框注释在448像素标准化尺度下的几何一致性,以及处理真实世界域偏移带来的分布差异,均为数据集构建的关键技术难点。
常用场景
经典使用场景
在工业视觉异常检测领域,MMR-AD数据集为多模态大语言模型提供了理想的训练与评估平台。其经典使用场景在于支持模型进行通用异常检测任务,通过包含大量工业产品图像及详尽的链式思维推理文本,使模型能够学习从视觉特征到语义理解的跨模态关联。研究人员可利用该数据集对模型进行微调,使其在未见过的产品类别上实现泛化性能的验证,从而推动工业质检智能化的发展。
实际应用
在实际工业质检场景中,MMR-AD数据集能够支撑智能检测系统的开发与优化。基于其大规模标注数据,企业可训练多模态模型自动识别生产线上的产品缺陷,如表面划痕、装配错误等,实现高效、精准的质量控制。该数据集涵盖的丰富异常类型与产品类别,有助于系统适应不同制造环境的需求,降低人工巡检成本,提升生产自动化水平,为工业4.0的落地提供关键技术支撑。
衍生相关工作
围绕MMR-AD数据集,已衍生出一系列聚焦于多模态异常检测的经典研究工作。例如,基于其链式思维文本特性,研究者开发了能够进行逐步推理的视觉语言模型,增强了异常定位与分类的准确性。同时,该数据集也促进了通用异常检测基准的建立,激励了如Qwen-VL、LLaVA等模型在工业领域的适配与优化,推动了跨模态学习与领域自适应方法的创新与发展。
以上内容由遇见数据集搜集并总结生成



