five

Industrial Screen Printing Anomaly Detection dataset (ISP-AD)|工业异常检测数据集|屏幕印刷数据集

收藏
arXiv2025-03-07 更新2025-03-11 收录
工业异常检测
屏幕印刷
下载链接:
http://arxiv.org/abs/2503.04997v1
下载链接
链接失效反馈
资源简介:
ISP-AD数据集是一个大规模的现实世界工业数据集,由聚合物竞争力中心Leoben GmbH和蒙大拿大学莱oben分校共同创建。该数据集包含来自屏幕印刷工业的实际案例,含有允许的设计变异性的结构化模式内嵌入微弱对比度的表面缺陷。数据集规模宏大,包括312674个正常样本和246375个缺陷样本,是迄今为止公开的最大的工业数据集。该数据集旨在促进工业异常检测研究,特别是在无监督、自监督和监督异常检测方法在工业环境中的应用研究。
提供机构:
聚合物竞争力中心Leoben GmbH, 莱oben, 奥地利。蒙大拿大学莱oben分校材料科学与聚合物测试主席,莱oben, 奥地利。
创建时间:
2025-03-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式涉及从真实工业环境中的丝网印刷过程中采集图像,包括无缺陷和有缺陷的样本。数据集由三种不同的光学模式捕获,以增强数据多样性。无缺陷样本经过随机裁剪和增强,而合成缺陷则通过在正常样本上添加随机纹理来生成。真实缺陷样本从有缺陷的样本中手动提取。数据集包括监督和无监督训练数据,用于评估不同方法的性能。
特点
ISP-AD数据集的特点包括:1. 来自真实工业场景的大规模数据;2. 具有高设计变体性的结构化图案中的微小、弱对比度缺陷;3. 三种成像模式,以增强数据多样性;4. 大规模的工业数据划分,适用于无监督和监督设置;5. 包括合成和收集的真实缺陷数据,适用于额外监督;6. 高样本变异性,源于样本本身、预处理和成像条件。
使用方法
使用ISP-AD数据集的方法包括:1. 在无监督设置中,使用无缺陷样本进行训练,以学习正常数据的特征表示;2. 在监督设置中,使用合成和/或真实缺陷样本进行训练,以提高模型的泛化能力;3. 混合监督训练方法,将合成和真实缺陷样本结合使用,以提高检测性能;4. 使用数据集进行性能评估,包括召回率、误报率和曲线下面积等指标。
背景与挑战
背景概述
工业印刷异常检测数据集(ISP-AD)是一个大型的现实世界数据集,旨在推动工业异常检测技术的发展。该数据集由奥地利莱奥本聚合物能力中心(Polymer Competence Center Leoben GmbH)和莱奥本蒙塔纳大学(Montanuniversit¨at Leoben)的材料科学和聚合物测试主席保罗·约瑟夫·克拉辛格(Paul Josef Krassnig)和迪特·保罗·格鲁伯(Dieter Paul Gruber)共同创建。ISP-AD数据集包含了来自工厂车间的合成缺陷和真实缺陷,旨在解决现有数据集在模拟工业场景方面的不足。该数据集包含312,674个无缺陷样本和246,375个缺陷样本,其中245,664个是合成的,711个是真实的。ISP-AD数据集是目前最大的公开可用工业缺陷检测数据集,适用于无监督和监督训练场景。
当前挑战
ISP-AD数据集面临的主要挑战包括:1)数据集中包含小型和对比度较低的表面缺陷,这些缺陷嵌入在高设计变异性结构模式中,对异常检测算法提出了挑战;2)数据集的构建过程中,收集和标记大量无缺陷和有缺陷的数据是一项劳动密集且实际操作难度较大的任务;3)监督方法在泛化到未见过的缺陷方面存在困难;4)现有的公开数据集大多在“实验室条件”下生成,未能捕捉工业环境的复杂性,导致对异常检测方法的实际工业适用性估计过高。
常用场景
经典使用场景
ISP-AD数据集在工业异常检测领域具有广泛的应用。它包含了合成和真实缺陷,能够帮助研究人员评估和提升异常检测方法的性能。数据集的复杂性和多样性使其成为研究工业场景中各种表面缺陷检测的理想平台。此外,ISP-AD数据集还支持监督和无监督的学习方法,为研究人员提供了灵活的研究工具。
衍生相关工作
ISP-AD数据集的发布促进了工业异常检测领域的研究进展。基于ISP-AD数据集,研究人员开发了一系列新的异常检测方法,如混合监督训练方法和无监督学习方法。这些方法在ISP-AD数据集上取得了良好的性能,为工业场景中的异常检测提供了新的解决方案。此外,ISP-AD数据集还激发了研究人员对自监督学习和合成缺陷数据生成等领域的探索,为未来的研究提供了新的方向。
数据集最近研究
最新研究方向
随着工业自动化程度的提高,表面缺陷检测在工业质量控制中扮演着越来越重要的角色。ISP-AD数据集的引入填补了现有数据集在模拟实际工业场景方面的不足,为工业异常检测研究提供了更真实、更具挑战性的数据。该数据集包含大量真实和合成缺陷,为无监督和监督学习方法提供了训练和测试环境。研究结果表明,无监督方法在处理小型和对比度弱的缺陷时面临挑战,而混合监督训练方法通过结合合成和真实缺陷,显著提高了检测性能。未来研究方向将着重于利用ISP-AD数据集,探索无监督学习方法的鲁棒性,以及将自监督学习应用于工业异常检测。同时,研究将关注如何有效地整合真实缺陷数据,以提高模型对未知缺陷的泛化能力。
相关研究论文
  • 1
    ISP-AD: A Large-Scale Real-World Dataset for Advancing Industrial Anomaly Detection with Synthetic and Real Defects聚合物竞争力中心Leoben GmbH, 莱oben, 奥地利。蒙大拿大学莱oben分校材料科学与聚合物测试主席,莱oben, 奥地利。 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AQA-7

AQA-7 是一个用于动作质量评估(AQA)的统一基准数据集,旨在通过整合多个领域的数据集来标准化评估方法。该数据集包含视频、骨骼数据和多模态输入,涵盖了体育分析、技能评估和医疗护理等多个应用领域。数据集的创建过程通过系统分析现有文献和实验协议,确保了评估的准确性和计算效率。AQA-7 的应用领域广泛,旨在解决动作质量评估中的偏差问题,提供客观的自动化评估,特别是在体育评分、技能评估和康复训练中具有重要意义。

arXiv 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

ST-EVCDP

这是一个关于公共电动汽车充电桩的时空充电需求预测的实际数据集,涵盖了18,061个公共充电桩的数据,包括坐标、充电器数量、占用情况和价格等信息。数据集用于学术研究,支持区域电动汽车充电需求预测。

github 收录

MagicData

MAGICDATA普通话阅读语音语料库由MAGIC DATA开发 科技有限公司,并免费发布用于非商业用途。 语料库的内容和相应的描述包括: 语料库包含 755 小时的语音数据,即 主要是移动记录的数据。 来自中国不同口音地区的1080位发言者是 受邀参与录制。 句子转录准确率高于98%。 录音在安静的室内环境中进行。 数据库分为训练集、验证集和测试 以51:1:2的比例设置。 语音数据编码和说话人信息等详细信息是 保留在元数据文件中。 记录文本的领域是多样化的,包括交互式 问答、音乐搜索、SNS消息、家庭命令和控制等。 还提供了分段的成绩单。 该语料库旨在支持语音识别,机器方面的研究人员 翻译、说话人识别和其他语音相关领域。因此 语料库完全免费供学术使用。

OpenDataLab 收录