IMDD-1M

github2026-01-10 更新2026-01-12 收录

下载链接：

https://github.com/NinaNeon/IMDD-1M-Towards-Open-Vocabulary-Industrial-Defect-

下载链接

链接失效反馈

官方服务：

资源简介：

IMDD-1M是第一个大规模工业多模态缺陷数据集，包含1,240,379个对齐的图像-文本对，涵盖63个工业领域和421种缺陷类型。数据集旨在推动制造业和质量检测的多模态学习。

IMDD-1M is the first large-scale industrial multimodal defect dataset, comprising 1,240,379 aligned image-text pairs and covering 63 industrial domains as well as 421 defect categories. This dataset is designed to promote multimodal learning for manufacturing and quality inspection.

创建时间：

2026-01-06

原始信息汇总

IMDD-1M 数据集概述

数据集简介

IMDD-1M 是首个大规模工业多模态缺陷数据集，包含 1,240,379 个对齐的图像-文本对，涵盖 63 个工业领域和 421 种缺陷类型。该数据集用于从头训练一个基于扩散的基础模型，该模型仅需传统监督方法不到 5% 的训练数据即可达到相当的性能。

数据集统计

指标	数值
总图像数	1,240,379
正常样本数	285,451
异常样本数	954,928
工业领域数	63
缺陷类型数	421
图像分辨率	512×512
文本描述长度	~42 词

数据集结构

IMDD-1M/ ├── images/ │ ├── semiconductor/ │ ├── steel_processing/ │ ├── electronics/ │ └── ... ├── annotations/ │ ├── train.json │ ├── val.json │ └── test.json └── metadata.json

关键特性

专家验证的标注

所有标注均由领域专家验证，采用结构化模板，包含产品类别、材料成分、缺陷类型、空间位置和根本原因。

广泛的工业覆盖

半导体：晶圆缺陷、污染、图案失效
电子：焊接缺陷、PCB 异常、元器件问题
金属：表面点蚀、腐蚀、裂纹、分层
纺织品：织物缺陷、污渍、图案不规则
包装：容器缺陷、标签错误、损坏

多模态学习

对齐的图像-文本对支持视觉-语言理解，文本描述包含形态学细节和专业的工业术语。

与现有数据集的比较

数据集	年份	图像数量	领域数量	文本标注
DAGM	2016	1.5K	1	否
KolektorSDD	2019	400	1	否
MVTec AD	2019	5.4K	15	否
BTAD	2021	2.5K	3	否
VisA	2022	10.8K	12	否
Real-IAD	2024	67K	30	否
IMDD-1M	2025	1.24M	63	是

许可证

本项目采用 MIT 许可证。

模型使用声明

与本项目相关的模型、模型权重、检查点和任何生成的输出仅用于学术研究和教育目的。未经作者事先书面许可，严禁商业用途。

搜集汇总

数据集介绍

构建方式

在工业视觉检测领域，大规模高质量数据集的稀缺长期制约着开放词汇缺陷理解技术的发展。IMDD-1M的构建过程体现了系统性工程思维，其核心在于整合了来自63个不同工业领域的真实生产数据，并通过领域专家验证机制确保了标注的精确性与专业性。数据收集涵盖了半导体、电子、金属加工、纺织品及包装等多个关键行业，最终形成了包含124万张图像-文本对的庞大语料库。每对数据均经过结构化模板处理，文本描述平均长度约为42个词，详细记载了产品类别、材料构成、缺陷类型、空间位置及根本原因等多维度信息，为模型学习提供了丰富的语义上下文。

特点

作为首个面向开放词汇理解的大规模工业缺陷多模态数据集，IMDD-1M展现出若干显著特征。其规模空前，涵盖421种缺陷类型与95万余个异常样本，远超现有同类数据集的数量级与多样性。数据集的多模态对齐特性尤为突出，每张缺陷图像均配有精细的文本描述，其中融入了专业的工业术语与形态学细节，为视觉-语言联合建模奠定了坚实基础。此外，数据集在工业场景覆盖广度上具有突破性，从微观的晶圆污染到宏观的金属表面裂纹，构建了跨越多个制造环节的缺陷知识图谱，极大拓展了工业视觉系统的认知边界。

使用方法

该数据集为工业缺陷智能分析提供了完整的工具链与标准化流程。研究人员可通过官方代码库快速部署预训练基础模型，实现文本引导的缺陷生成、零样本分类及像素级分割等多种任务。对于特定工业场景的适配，数据集支持高效微调范式，仅需每类200个样本即可达到96%以上的识别准确率，显著降低了数据需求与计算成本。实践应用中，用户可依据标准目录结构加载图像与标注文件，利用提供的脚本进行模型训练与推理；同时，隐式描述生成器模块能够在文本标注缺失的情况下维持模型的语义理解能力，增强了系统在真实生产环境中的鲁棒性与适用性。

背景与挑战

背景概述

工业缺陷检测是智能制造与质量控制领域的核心研究方向，旨在通过自动化视觉系统识别产品表面的异常。传统方法多依赖小规模、特定场景的数据集，如MVTec AD，其有限的样本量与标注维度制约了通用模型的泛化能力。为突破这一瓶颈，IMDD-1M数据集于2025年由匿名研究团队构建，作为首个大规模工业多模态缺陷数据集，它整合了来自63个工业领域的124万张图像-文本对，涵盖421种缺陷类型。该数据集通过专家验证的结构化标注，将视觉信息与细粒度文本描述对齐，为开放词汇的工业缺陷理解奠定了数据基础，显著推动了缺陷检测从封闭式分类向开放式语义理解的范式转变。

当前挑战

在工业缺陷检测领域，核心挑战在于实现开放词汇理解，即模型需识别训练数据中未见的缺陷类别，这对数据的多样性与标注的语义丰富度提出了极高要求。IMDD-1M针对此问题，需克服跨领域缺陷形态的极端差异性，以及专业术语的准确文本描述对齐。在构建过程中，挑战主要体现在大规模数据采集的协调难度，涉及多个工业伙伴的协作与数据合规性处理；同时，专家级标注需要融合产品类别、材料成分、缺陷类型等多维度信息，确保每对图像与文本在形态细节与专业术语上精确匹配，这一过程耗时且成本高昂。

常用场景

经典使用场景

在工业缺陷检测领域，IMDD-1M数据集凭借其百万级规模的图像-文本对齐数据，为开放词汇工业缺陷理解提供了核心支撑。该数据集最经典的应用场景在于训练和评估多模态基础模型，例如通过扩散模型架构进行缺陷图像的生成与理解，使得模型能够依据自然语言描述精准识别和定位跨领域的复杂缺陷模式，从而推动工业视觉系统向更智能、更泛化的方向发展。

衍生相关工作

基于IMDD-1M数据集，已衍生出一系列围绕工业多模态理解的开创性工作。例如，其配套的工业扩散U-Net与隐式描述生成器架构，为缺陷图像的生成式数据增强与少样本微调提供了新范式。同时，该数据集也促进了开放词汇分割模型在工业场景的适配研究，推动了如Mask2Former等通用架构在特定领域的性能优化，为后续工业视觉基础模型的构建奠定了坚实的数据与方法论基础。

数据集最近研究