five

Coarsely-labeled anomaly dataset

收藏
arXiv2024-12-17 更新2024-12-19 收录
下载链接:
https://github.com/Faustinaqq/CKAAD
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于视觉异常检测的粗标注异常数据集,主要用于提升自动编码器在异常检测和定位中的表现。数据集包含少量异常图像,这些图像在实际应用中(如医疗诊断和工业制造)被确认存在问题。数据集的特点是异常区域仅占图像的一小部分,且数据集仅覆盖了部分可能的异常类型。通过引入该数据集,研究者开发了一种粗知识感知的对抗学习方法,旨在通过对齐重建特征与正常特征的分布来提升检测和定位的准确性。该数据集的应用领域主要集中在医疗和工业制造中的细粒度异常检测。

This dataset is a coarsely annotated anomaly dataset for visual anomaly detection, primarily used to enhance the performance of autoencoders in anomaly detection and localization. The dataset contains a small number of anomalous images that have been confirmed to have defects in real-world applications such as medical diagnosis and industrial manufacturing. A key characteristic of this dataset is that the anomalous regions only account for a small portion of the images, and the dataset only covers a subset of all possible anomaly types. By leveraging this dataset, researchers developed a coarse knowledge-aware adversarial learning method, which aims to improve the accuracy of detection and localization by aligning the distributions of reconstructed features and normal features. The application scenarios of this dataset mainly focus on fine-grained anomaly detection in medical and industrial manufacturing fields.
提供机构:
中山大学
创建时间:
2024-12-17
原始信息汇总

数据集概述

数据集列表

该数据集项目使用了以下四个数据集:

  1. Chest X-rays: Chest X-rays
  2. OCT: OCT
  3. ISIC2018: ISIC2018
  4. Br35H: Br35H
  5. MVTec: MVTec

数据集结构

下载的数据集应放置在 ./data/ 目录下,结构如下:

|-- ChestXRay2017 | |-- train | | |-- NORMAL | | |-- PNEUMONIA | | | |-- test | |-- OCT2017 | |-- train | | |-- CNV | | |-- DME | | |-- DRUSEN | | |-- NORMAL | | | |-- test | |-- ISIC2018 | |-- ISIC2018_Task3_Training_Input | |-- ISIC2018_Task3_Training_GroundTruth | |-- ISIC2018_Task3_Test_Input | |-- ISIC2018_Task3_Test_GroundTruth | |-- ISIC2018_Task3_Validation_Input | |-- ISIC2018_Task3_Validation_GroundTruth | |-- Br35H | |-- yes | |-- no | |-- mvtec | |-- carpet | |-- grid | |-- ... | |-- visa | |-- candle | |-- capsules | |-- ... |

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过收集少量粗略标注的异常图像构建而成,这些图像在实际应用中通常由经验丰富的专家确认存在问题,如医疗诊断中的X光片或工业制造中的缺陷产品图像。由于异常通常仅占据图像的一小部分区域,因此数据集的标注仅标记整个图像为异常,而未精确标注异常的具体位置。这种粗略的标注方式使得数据集具有‘粗略性’和‘不完整性’,即异常信息仅覆盖了部分可能的异常类型。
使用方法
该数据集可用于训练和验证基于特征重建的异常检测模型。通过引入粗略标注的异常图像,模型能够在重建特征时抑制对异常区域的过度拟合,从而提高检测和定位的准确性。具体使用时,可以将该数据集与正常数据集结合,通过对抗学习策略来优化模型的重建能力,使其在面对异常图像时能够输出更接近正常特征的重建结果。
背景与挑战
背景概述
视觉异常检测(Visual Anomaly Detection, VAD)是计算机视觉领域的一个重要研究方向,旨在识别与正常样本显著不同的图像。传统的无监督方法通常依赖于自动编码器(Auto-Encoder)来重建正常样本,并通过重建误差来检测异常。然而,由于神经网络强大的建模和泛化能力,某些异常样本也能被良好地重建,导致检测和定位精度不足。为此,Qingqing Fang等人于2024年提出了一种新的粗标签异常数据集(Coarsely-labeled anomaly dataset),并开发了一种基于粗知识感知的对抗学习方法(Coarse-Knowledge-Aware Adversarial Learning, CKAAD),旨在通过引入少量粗标签的异常样本,提升特征重建模型的异常检测和定位能力。该数据集的构建为细粒度异常检测提供了新的思路,尤其是在医学诊断和工业制造等领域的应用中,具有重要的研究价值。
当前挑战
该数据集的构建和应用面临多重挑战。首先,异常样本的多样性使得数据集难以覆盖所有可能的异常类型,导致数据集的“不完整性”。其次,异常样本通常只占据图像的很小区域,而整个图像被标记为异常,这种“粗糙性”增加了模型学习的难度。此外,在构建过程中,由于异常样本的稀缺性和标注成本的高昂,数据集的规模较小,进一步增加了模型训练的复杂性。最后,如何在有限的异常样本基础上,提升模型的检测和定位精度,尤其是在细粒度异常检测任务中,仍然是一个亟待解决的问题。
常用场景
经典使用场景
Coarsely-labeled anomaly dataset 最经典的使用场景在于提升细粒度视觉异常检测的准确性。该数据集通过引入少量粗略标注的异常样本,结合知识感知的对抗学习方法,帮助模型更好地识别和定位图像中的细粒度异常区域。特别是在医学影像和工业制造领域,如X光片中的结节检测或产品表面缺陷的定位,该数据集能够显著提升模型的检测和定位性能。
解决学术问题
该数据集解决了传统异常检测方法中由于仅使用正常样本训练而导致的模型对异常样本的重建能力过强的问题。通过引入粗略标注的异常样本,模型能够更好地学习正常与异常样本之间的分布差异,从而提升异常检测的准确性。这一方法不仅解决了细粒度异常检测中的关键问题,还为异常定位提供了新的思路,具有重要的学术价值和实际意义。
实际应用
在实际应用中,Coarsely-labeled anomaly dataset 广泛应用于医学影像分析和工业质量控制领域。例如,在医学影像中,该数据集帮助医生更准确地检测和定位肺部结节、脑肿瘤等异常区域;在工业制造中,它能够有效识别产品表面的微小缺陷,如划痕或孔洞,从而提高生产线的自动化检测水平,减少人工成本。
数据集最近研究
最新研究方向
近年来,基于粗标签异常数据集的研究主要集中在细粒度视觉异常检测领域,尤其是通过引入粗知识感知的对抗学习方法来提升检测和定位精度。该领域的研究热点在于如何有效利用少量粗标签异常数据,通过对抗学习策略抑制自动编码器对异常样本的重建能力,从而提高检测性能。具体而言,研究者们开发了能量基判别器,通过分配低能量给正常特征、高能量给重建和异常特征,促使自动编码器输出与正常特征分布对齐的重建特征。此外,针对异常区域通常仅占图像一小部分的特点,研究进一步提出了基于补丁级别的对抗学习策略,以实现更精确的异常定位。实验结果表明,该方法在医疗和工业数据集上均显著提升了检测和定位性能,展示了其在细粒度异常检测中的前沿应用潜力。
相关研究论文
  • 1
    Boosting Fine-Grained Visual Anomaly Detection with Coarse-Knowledge-Aware Adversarial Learning中山大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作