AGSSP数据集
收藏arXiv2025-09-23 更新2025-09-25 收录
下载链接:
https://clovermini.github.io/AGSSP-Dev/
下载链接
链接失效反馈官方服务:
资源简介:
AGSSP数据集是一个包含120,000张工业表面图像的大型数据集,涵盖了61个类别,用于预训练模型。该数据集由北京科技大学钢铁技术协同创新中心收集,其中一半数据来自20个公开可用的工业表面缺陷数据集,另一半来自14个钢铁厂和生产线。该数据集旨在解决金属表面缺陷检测中的数据稀缺问题,并为下游任务提供有效的预训练模型。
The AGSSP dataset is a large-scale dataset comprising 120,000 industrial surface images across 61 categories, intended for model pre-training. Collected by the Collaborative Innovation Center for Iron and Steel Technology, University of Science and Technology Beijing, half of the dataset’s data originates from 20 publicly available industrial surface defect datasets, while the other half is sourced from 14 steel plants and production lines. This dataset aims to address the data scarcity issue in metal surface defect detection, and enables the development of effective pre-trained models for downstream tasks.
提供机构:
北京科技大学钢铁技术协同创新中心
创建时间:
2025-09-23
搜集汇总
数据集介绍
构建方式
在工业视觉检测领域,高质量数据集的构建是提升缺陷检测模型性能的关键。AGSSP数据集通过整合20个公开工业表面缺陷数据集与14家钢铁企业的实际产线数据,构建了包含12万张图像的大规模无标注工业数据集。该数据集涵盖61种不同材质的工业对象类别,确保了数据来源的多样性和工业场景的广泛代表性。数据采集过程特别注重金属表面纹理和缺陷形态的复杂性,为后续异常引导的预训练提供了丰富的视觉特征基础。
特点
该数据集的核心特征体现在其多模态工业场景覆盖与精细化缺陷表征能力。数据集不仅包含钢板、钢带、钢管等常见金属材料,还囊括了高温连铸坯等特殊工业场景,缺陷类型覆盖划痕、焊渣、纵向裂纹等十余种典型工业缺陷。其独特价值在于通过知识增强的异常检测方法生成像素级异常热力图,为自监督预训练提供了显式的缺陷区域先验知识。这种基于多模态描述的缺陷特征标注机制,显著提升了数据集的语义对齐能力和跨类别泛化性。
使用方法
该数据集采用两阶段异常引导自监督预训练框架进行模型开发。第一阶段通过异常热力图的知识蒸馏,将缺陷显著性特征迁移至骨干网络的高层特征表示中;第二阶段利用异常热力图生成的伪缺陷框对检测器进行任务对齐预训练。在实际应用中,研究者可加载预训练的骨干网络和检测器权重,在下游金属表面缺陷检测任务上进行微调。该方法支持与分类、对比学习、图像重建等多种预训练任务灵活结合,显著提升模型在数据稀缺场景下的缺陷检测精度。
背景与挑战
背景概述
金属表面缺陷检测作为工业质量控制的核心环节,其自动化技术发展对提升制造业智能化水平具有重要意义。2025年,北京科技大学钢铁技术协同创新中心的科研团队针对传统预训练方法在工业场景中的局限性,构建了AGSSP数据集。该数据集包含12万张涵盖61类工业物体的无标注图像,旨在通过异常引导的自监督预训练范式,解决工业缺陷检测中数据稀缺与领域差异的双重挑战。研究团队创新性地提出知识增强异常检测方法,将领域专业知识融入预训练过程,为金属表面缺陷检测提供了新的技术路径。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,金属表面缺陷检测需应对缺陷样本极度稀缺(如钢管生产中缺陷率低于0.1%)、缺陷形态细微且与复杂背景纹理混淆、光照条件多变等现实难题;在构建过程层面,数据集采集需克服工业现场数据标注成本高昂、类别不平衡显著、跨设备图像质量不一致等困难。特别地,现有自监督学习方法难以从金属表面噪声中区分微弱缺陷模式,而直接迁移自然图像预训练模型又存在严重的领域差异问题,这要求构建过程必须开发新型的异常引导机制来确保特征学习的有效性。
常用场景
经典使用场景
在金属表面缺陷检测领域,AGSSP数据集通过异常引导的自监督预训练范式,为深度学习模型提供了大规模无标注工业图像资源。该数据集最经典的应用场景体现在预训练-微调框架中,研究者利用其12万张涵盖61类工业对象的图像,结合知识增强的异常检测算法生成异常热图,指导模型骨干网络和检测器的表征学习。这种范式有效解决了传统ImageNet预训练存在的领域差异问题,使模型能够专注于金属表面细微缺陷的特征提取。
衍生相关工作
基于该数据集提出的异常引导预训练框架,已衍生出多类创新性研究。例如在检测器架构方面,团队验证了其与Faster R-CNN、DINO等模型的兼容性;在跨领域迁移中,该方法在织物缺陷数据集上实现了5.2%的mAP提升。相关技术思路还启发了工业异常检测领域对CLIP模型的知识增强应用,推动形成了结合视觉-语言模型的零样本缺陷识别新范式。
数据集最近研究
最新研究方向
在金属表面缺陷检测领域,AGSSP数据集的提出标志着自监督预训练范式的重大革新。该研究通过异常先验引导的两阶段框架,有效解决了工业场景中缺陷样本稀缺与标注成本高昂的长期挑战。前沿方向聚焦于将知识增强的异常检测与多模态提示相结合,利用领域专业知识生成高质量异常图,从而在骨干网络和检测器预训练中实现任务对齐。这一方法显著提升了模型在极端少样本和跨域场景下的泛化能力,为工业质检的智能化转型提供了可扩展的解决方案,并推动了缺陷检测从依赖自然图像预训练向领域自适应学习的范式转变。
相关研究论文
- 1Advancing Metallic Surface Defect Detection via Anomaly-Guided Pretraining on a Large Industrial Dataset北京科技大学钢铁技术协同创新中心 · 2025年
以上内容由遇见数据集搜集并总结生成



