five

Defect Spectrum|工业缺陷检测数据集|视觉语言模型数据集

收藏
arXiv2023-11-06 更新2024-06-21 收录
工业缺陷检测
视觉语言模型
下载链接:
https://envision-research.github.io/Defect_Spectrum
下载链接
链接失效反馈
资源简介:
Defect Spectrum数据集是由香港科技大学(广州)和SmartMore联合创建的,旨在提供精确、语义丰富的大规模工业缺陷标注。该数据集包含3518张高质量图像,来源于MVTEC、VISIONV1等四个关键工业基准,通过严格的标注过程,提供了详细的缺陷类型和位置信息。数据集不仅用于提升缺陷检测模型的性能,还支持视觉语言模型的研究。创建过程中,使用了创新的标注工具Defect-Click,以提高标注效率和准确性。该数据集主要应用于工业制造中的缺陷检测,旨在解决现有数据集在缺陷类型和位置标注上的不足。
提供机构:
香港科技大学(广州)
创建时间:
2023-10-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
Defect Spectrum数据集的构建基于四个关键工业基准数据集,通过严格的标注过程进行改进和丰富。研究团队重新评估并细化了现有缺陷标注,确保了标注的精确性和全面性。此外,引入了丰富的语义细节,能够区分单张图像中的多种缺陷类型。为了应对缺陷样本的稀缺性,团队还开发了Defect-Gen,一个两阶段的扩散生成模型,用于生成高质量且多样化的缺陷图像。
特点
Defect Spectrum数据集的主要特点在于其高精度和丰富的语义标注,能够提供详细的缺陷类型和位置信息。与现有数据集相比,该数据集不仅在标注的精确性上有所提升,还引入了多缺陷类型的标注,更贴近实际工业应用场景。此外,数据集还配备了详细的描述性标注,旨在促进视觉语言模型在缺陷检测中的应用。
使用方法
Defect Spectrum数据集适用于多种工业缺陷检测任务,包括缺陷检测、分类和分割。研究者和工程师可以使用该数据集来训练和验证缺陷检测模型,特别是在需要高精度标注和多缺陷类型识别的场景中。通过结合Defect-Gen生成的合成数据,可以进一步增强模型的性能和鲁棒性。数据集的详细标注和描述性信息也为视觉语言模型的应用提供了基础。
背景与挑战
背景概述
在现代工业制造中,缺陷检测是确保产品质量的关键环节。然而,现有的缺陷检测数据集往往缺乏精细的语义信息和精确的标注,难以满足实际应用的需求。为此,杨帅、陈志飞等研究人员于2023年推出了Defect Spectrum数据集,该数据集基于四个关键工业基准数据集构建,旨在提供丰富语义、精确且大规模的工业缺陷标注。Defect Spectrum不仅对现有标注进行了精细化的改进,还引入了多缺陷类型的区分,为工业缺陷检测研究提供了坚实的基础。
当前挑战
Defect Spectrum数据集在构建过程中面临多项挑战。首先,现有数据集在缺陷类型和位置的标注上缺乏足够的精细度,导致实际应用中的检测效果受限。其次,工业缺陷样本的稀缺性使得模型训练面临数据不足的问题。为应对这些挑战,研究人员开发了Defect-Gen,一种基于扩散模型的两阶段生成器,能够在有限数据条件下生成高质量且多样化的缺陷图像,从而显著提升缺陷检测模型的性能。此外,数据集的标注过程中还引入了丰富的语义细节和详细的描述性标注,以支持未来研究中视觉语言模型的应用。
常用场景
经典使用场景
Defect Spectrum数据集在工业缺陷检测领域中被广泛应用于提升缺陷检测模型的精度和语义丰富性。该数据集通过提供精确、语义丰富的标注,帮助研究人员开发和测试先进的缺陷检测算法。例如,研究人员可以利用该数据集训练深度学习模型,以识别和分类工业产品中的多种缺陷类型,从而提高生产线的自动化水平和产品质量。
实际应用
在实际应用中,Defect Spectrum数据集及其衍生工具Defect-Gen被广泛应用于工业生产线的自动化缺陷检测系统。例如,在电子制造、汽车制造和纺织品生产等行业,该数据集帮助企业实现对产品缺陷的快速检测和分类,从而提高生产效率和产品质量。此外,Defect-Click标注工具的引入,极大地提高了标注效率,使得大规模数据集的构建和维护成为可能。
衍生相关工作
Defect Spectrum数据集的发布催生了一系列相关研究工作,特别是在缺陷检测和生成模型领域。例如,基于该数据集的研究论文提出了多种改进的缺陷检测算法,显著提升了检测精度和效率。此外,Defect-Gen生成器的成功应用,激发了更多关于数据增强和生成模型的研究,推动了生成对抗网络(GAN)和扩散模型在工业缺陷检测中的应用。这些研究成果不仅丰富了学术界的知识库,也为工业界提供了实用的技术解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录