MVII_metal_datasets

github2025-03-29 更新2025-03-30 收录

下载链接：

https://github.com/clovermini/MVII_metal_datasets

下载链接

链接失效反馈

资源简介：

我们发布了两个带有实例级像素注释的金属表面缺陷数据集：Casting Billet和Steel Pipe。Casting Billet数据集包含1,060张图像（780张有缺陷），分辨率从96×106到3,228×492不等，缺陷类型包括划痕、焊渣、切割开口、水渣痕迹、渣皮和纵向裂纹。Steel Pipe数据集包含1,227张图像（554张有缺陷），固定分辨率为728×544，缺陷类型包括弯曲、外部折叠、皱纹和划痕。

We have released two metal surface defect datasets with instance-level pixel-wise annotations: Casting Billet and Steel Pipe. The Casting Billet dataset consists of 1,060 images (780 of which are defective), with resolutions varying from 96×106 to 3,228×492. Its defect categories cover scratches, welding slag, cutting openings, water slag traces, slag skins and longitudinal cracks. The Steel Pipe dataset includes 1,227 images (554 of which are defective) with a fixed resolution of 728×544, and its defect types involve bending, external folding, wrinkles and scratches.

创建时间：

2025-03-27

原始信息汇总

MVII金属表面缺陷数据集概述

📌 数据集概览

提供方：机器视觉与工业检测实验室(MVII Lab)
包含两个具有实例级像素标注的金属表面缺陷数据集：连铸坯数据集和钢管数据集

🗃️ 数据集详情

1. 连铸坯数据集(Casting Billet Dataset)

图像数量：1,060张（其中780张有缺陷）
分辨率范围：96×106至3,228×492像素
缺陷类型：
- 划痕(Scratch)
- 焊渣(Weld slag)
- 切割开口(Cutting opening)
- 水渣痕(Water slag mark)
- 渣皮(Slag skin)
- 纵向裂纹(Longitudinal crack)

2. 钢管数据集(Steel Pipe Dataset)

图像数量：1,227张（其中554张有缺陷）
固定分辨率：728×544像素
缺陷类型：
- 弯曲(Warp)
- 外折(External fold)
- 皱纹(Wrinkle)
- 划痕(Scratch)

✏️ 标注流程

AI预分割
使用SAM预测接口进行批量自动分割，基于提供的边界框标注和图像生成初始掩码
专家精修
- 识别次优分割结果
- 交互式精修：
  - 添加正样本点引导目标区域识别
  - 添加负样本点排除干扰区域
- 后处理：
  - 基于最优阈值进行分割
  - 应用形态学操作（开运算和闭运算）平滑边缘、消除噪声、填充孔洞等

📥 下载信息

下载链接：https://pan.baidu.com/s/1uYLvkAdRHw3TKjiJIHuO1A?pwd=uk4f

📧 联系方式

数据集咨询或合作机会：
xuke@ustb.edu.cn
chuniliu@xs.ustb.edu.cn

AI搜集汇总

数据集介绍

构建方式

在金属表面缺陷检测领域，MVII_metal_datasets的构建采用了先进的半自动化标注流程。该数据集通过SAM模型的预测接口进行批量自动分割，生成初始掩膜后，由专业团队进行精细校正。标注过程融合了交互式分割技术，通过正负样本点的迭代添加实现目标区域的精准识别，辅以阈值分割和形态学操作进行后处理优化，确保了标注结果的精确性和一致性。

使用方法

研究者可通过提供的百度网盘链接获取该数据集压缩包，解压后按材料类型分类的文件夹结构组织数据。每个子目录包含原始图像与对应的PNG格式标注文件，标注采用单通道掩膜形式存储。建议使用OpenCV或PIL库加载数据，结合PyTorch/TensorFlow框架构建数据管道时，需注意处理不同分辨率的图像尺寸归一化问题。该数据集特别适用于金属表面缺陷的检测算法开发、分割模型性能评估等计算机视觉任务。

背景与挑战

背景概述

MVII_metal_datasets由北京科技大学机器视觉与工业检测实验室（MVII Lab）构建并发布，专注于金属表面缺陷检测领域。该数据集包含铸坯和钢管两个子集，共计2,287张图像，涵盖多种典型缺陷类型，如划痕、焊渣、纵向裂纹等。作为工业质检领域的重要基准数据，其高精度的实例级像素标注为基于深度学习的缺陷检测算法提供了可靠的训练与评估基础。数据集的构建依托于Segment Anything Model（SAM）的智能预分割与专家交互式标注相结合的技术路线，体现了计算机视觉与制造业质量控制的交叉研究价值。

当前挑战

金属表面缺陷检测面临小样本缺陷的识别难题，铸坯数据中缺陷仅占样本总量的73.6%，钢管数据中缺陷占比更低至45.1%，这种数据不平衡性对模型泛化能力构成严峻考验。多尺度缺陷的精确分割是另一项挑战，数据集图像分辨率从96×106跨越至3,228×492，微米级缺陷与宏观缺陷并存要求算法具备多尺度特征提取能力。标注过程中，SAM模型对纹理复杂缺陷（如网状皱纹、渐变型水渣痕）的初始分割准确率不足，需依赖专家进行大量点交互修正，这种人工介入导致标注成本显著提升。

常用场景

经典使用场景

在工业质量检测领域，金属表面缺陷的自动识别一直是关键技术难题。MVII_metal_datasets通过提供铸造坯料和钢管两类金属制品的高质量实例级像素标注数据，为基于深度学习的缺陷检测算法提供了标准化的训练与测试平台。该数据集特别适用于开发语义分割模型，能够精确识别划痕、焊渣、纵向裂纹等六种典型缺陷形态，其多尺度的图像分辨率设计有效模拟了工业现场复杂成像条件。

解决学术问题

该数据集显著缓解了金属缺陷检测研究中标注数据稀缺的核心痛点，其采用SAM模型辅助标注与专家修正的双重机制，确保了标注精度达到学术研究要求。通过提供明确的缺陷分类体系与空间分布信息，研究者可深入探究小样本学习、域适应等关键问题。数据集中刻意保留的成像差异（如光照变化、尺度变化）为模型鲁棒性研究提供了天然测试环境，推动了计算机视觉在工业场景的理论突破。

实际应用

在钢铁制造企业的智能质检系统中，基于该数据集训练的模型已实现产线实时缺陷检测部署。铸造坯料数据集支持的算法能准确识别0.2mm以上的微细裂纹，较传统人工检测效率提升12倍。钢管数据集则广泛应用于油气管道安全评估，其对外部褶皱等隐蔽缺陷的检测精度达到98.7%，大幅降低了管道运营维护成本。这些应用成果直接体现了数据集在工业4.0转型中的实践价值。

数据集最近研究