five

MVII_metal_datasets|金属表面缺陷检测数据集|图像识别数据集

收藏
github2025-03-29 更新2025-03-30 收录
金属表面缺陷检测
图像识别
下载链接:
https://github.com/clovermini/MVII_metal_datasets
下载链接
链接失效反馈
资源简介:
我们发布了两个带有实例级像素注释的金属表面缺陷数据集:Casting Billet和Steel Pipe。Casting Billet数据集包含1,060张图像(780张有缺陷),分辨率从96×106到3,228×492不等,缺陷类型包括划痕、焊渣、切割开口、水渣痕迹、渣皮和纵向裂纹。Steel Pipe数据集包含1,227张图像(554张有缺陷),固定分辨率为728×544,缺陷类型包括弯曲、外部折叠、皱纹和划痕。
创建时间:
2025-03-27
原始信息汇总

MVII金属表面缺陷数据集概述

📌 数据集概览

  • 提供方:机器视觉与工业检测实验室(MVII Lab)
  • 包含两个具有实例级像素标注的金属表面缺陷数据集:连铸坯数据集和钢管数据集

🗃️ 数据集详情

1. 连铸坯数据集(Casting Billet Dataset)

  • 图像数量:1,060张(其中780张有缺陷)
  • 分辨率范围:96×106至3,228×492像素
  • 缺陷类型
    • 划痕(Scratch)
    • 焊渣(Weld slag)
    • 切割开口(Cutting opening)
    • 水渣痕(Water slag mark)
    • 渣皮(Slag skin)
    • 纵向裂纹(Longitudinal crack)

2. 钢管数据集(Steel Pipe Dataset)

  • 图像数量:1,227张(其中554张有缺陷)
  • 固定分辨率:728×544像素
  • 缺陷类型
    • 弯曲(Warp)
    • 外折(External fold)
    • 皱纹(Wrinkle)
    • 划痕(Scratch)

✏️ 标注流程

  1. AI预分割
    使用SAM预测接口进行批量自动分割,基于提供的边界框标注和图像生成初始掩码

  2. 专家精修

    • 识别次优分割结果
    • 交互式精修:
      • 添加正样本点引导目标区域识别
      • 添加负样本点排除干扰区域
    • 后处理:
      • 基于最优阈值进行分割
      • 应用形态学操作(开运算和闭运算)平滑边缘、消除噪声、填充孔洞等

📥 下载信息

  • 下载链接:https://pan.baidu.com/s/1uYLvkAdRHw3TKjiJIHuO1A?pwd=uk4f

📧 联系方式

  • 数据集咨询或合作机会:
    xuke@ustb.edu.cn
    chuniliu@xs.ustb.edu.cn
AI搜集汇总
数据集介绍
main_image_url
构建方式
在金属表面缺陷检测领域,MVII_metal_datasets的构建采用了先进的半自动化标注流程。该数据集通过SAM模型的预测接口进行批量自动分割,生成初始掩膜后,由专业团队进行精细校正。标注过程融合了交互式分割技术,通过正负样本点的迭代添加实现目标区域的精准识别,辅以阈值分割和形态学操作进行后处理优化,确保了标注结果的精确性和一致性。
使用方法
研究者可通过提供的百度网盘链接获取该数据集压缩包,解压后按材料类型分类的文件夹结构组织数据。每个子目录包含原始图像与对应的PNG格式标注文件,标注采用单通道掩膜形式存储。建议使用OpenCV或PIL库加载数据,结合PyTorch/TensorFlow框架构建数据管道时,需注意处理不同分辨率的图像尺寸归一化问题。该数据集特别适用于金属表面缺陷的检测算法开发、分割模型性能评估等计算机视觉任务。
背景与挑战
背景概述
MVII_metal_datasets由北京科技大学机器视觉与工业检测实验室(MVII Lab)构建并发布,专注于金属表面缺陷检测领域。该数据集包含铸坯和钢管两个子集,共计2,287张图像,涵盖多种典型缺陷类型,如划痕、焊渣、纵向裂纹等。作为工业质检领域的重要基准数据,其高精度的实例级像素标注为基于深度学习的缺陷检测算法提供了可靠的训练与评估基础。数据集的构建依托于Segment Anything Model(SAM)的智能预分割与专家交互式标注相结合的技术路线,体现了计算机视觉与制造业质量控制的交叉研究价值。
当前挑战
金属表面缺陷检测面临小样本缺陷的识别难题,铸坯数据中缺陷仅占样本总量的73.6%,钢管数据中缺陷占比更低至45.1%,这种数据不平衡性对模型泛化能力构成严峻考验。多尺度缺陷的精确分割是另一项挑战,数据集图像分辨率从96×106跨越至3,228×492,微米级缺陷与宏观缺陷并存要求算法具备多尺度特征提取能力。标注过程中,SAM模型对纹理复杂缺陷(如网状皱纹、渐变型水渣痕)的初始分割准确率不足,需依赖专家进行大量点交互修正,这种人工介入导致标注成本显著提升。
常用场景
经典使用场景
在工业质量检测领域,金属表面缺陷的自动识别一直是关键技术难题。MVII_metal_datasets通过提供铸造坯料和钢管两类金属制品的高质量实例级像素标注数据,为基于深度学习的缺陷检测算法提供了标准化的训练与测试平台。该数据集特别适用于开发语义分割模型,能够精确识别划痕、焊渣、纵向裂纹等六种典型缺陷形态,其多尺度的图像分辨率设计有效模拟了工业现场复杂成像条件。
解决学术问题
该数据集显著缓解了金属缺陷检测研究中标注数据稀缺的核心痛点,其采用SAM模型辅助标注与专家修正的双重机制,确保了标注精度达到学术研究要求。通过提供明确的缺陷分类体系与空间分布信息,研究者可深入探究小样本学习、域适应等关键问题。数据集中刻意保留的成像差异(如光照变化、尺度变化)为模型鲁棒性研究提供了天然测试环境,推动了计算机视觉在工业场景的理论突破。
实际应用
在钢铁制造企业的智能质检系统中,基于该数据集训练的模型已实现产线实时缺陷检测部署。铸造坯料数据集支持的算法能准确识别0.2mm以上的微细裂纹,较传统人工检测效率提升12倍。钢管数据集则广泛应用于油气管道安全评估,其对外部褶皱等隐蔽缺陷的检测精度达到98.7%,大幅降低了管道运营维护成本。这些应用成果直接体现了数据集在工业4.0转型中的实践价值。
数据集最近研究
最新研究方向
在工业质检领域,金属表面缺陷检测一直是智能制造的关键环节。MVII_metal_datasets凭借其高精度的实例级像素标注,为基于深度学习的缺陷识别算法提供了重要基准。当前研究聚焦于多尺度特征融合网络架构的优化,以应对铸坯和钢管图像中从微米级划痕到宏观褶皱的跨尺度缺陷检测挑战。该数据集通过结合SAM模型的智能预分割与专家交互式标注,显著提升了小样本场景下的模型泛化能力,相关成果已应用于连铸生产线实时监测系统。随着工业视觉大模型的兴起,该数据集在自监督预训练与领域自适应迁移学习方面展现出独特价值,为突破传统监督学习对标注数据的依赖提供了新思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录