MNIST with anomaly datasets
收藏github2019-01-10 更新2024-05-31 收录
下载链接:
https://github.com/cocon-ai-group/MNIST-with-anomaly-datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含标记的MNIST手写数字图像数据集,包括训练集、测试集和异常集。训练集包含21,038张图像,测试集包含20,962张图像,异常集包含28,000张图像,其中27,990张为MNIST手写数字图像,10张为异常图像。
The labeled MNIST handwritten digit image dataset comprises a training set, a test set, and an anomaly set. The training set includes 21,038 images, the test set contains 20,962 images, and the anomaly set consists of 28,000 images, of which 27,990 are MNIST handwritten digit images and 10 are anomalous images.
创建时间:
2018-05-21
原始信息汇总
数据集概述
数据集组成
- train.zip:包含21,038张已标注的MNIST手写数字图像。
- test.zip:包含20,962张已标注的MNIST手写数字图像。
- anomaly.zip:包含28,000张未标注的图像,其中27,990张为MNIST手写数字图像,10张为异常图像。
相关程序
- autoencoder.py:用于通过自动编码器进行分布式表示。
- find_anomaly.py:用于通过度量学习检测异常图像。
搜集汇总
数据集介绍

构建方式
MNIST with anomaly datasets数据集的构建,是基于广泛应用的MNIST手写数字数据集。该数据集由三个压缩文件组成:train.zip包含21,038张标记的手写数字图像,test.zip包含20,962张标记的手写数字图像,anomaly.zip包含28,000张未标记的图像,其中27,990张为MNIST手写数字图像,10张为异常图像。这种构建方式旨在为异常检测任务提供标准化的训练和测试数据。
特点
该数据集的特点在于,它不仅提供了常规的MNIST数据,还额外提供了未标记的异常图像,这对于训练模型识别和检测异常值具有重要意义。这种设计使得该数据集在图像分类任务的基础上,增加了异常检测的维度,为研究人员提供了一个综合性的实验平台。
使用方法
使用MNIST with anomaly datasets数据集,首先需要解压train.zip和test.zip文件以获取训练和测试数据。对于异常检测,可以解压anomaly.zip文件,并利用提供的autoencoder.py和find_anomaly.py脚本进行模型的训练和异常图像的检测。这些脚本利用了深度学习和度量学习的方法,便于研究人员进行异常检测算法的开发和评估。
背景与挑战
背景概述
MNIST with anomaly datasets数据集,源自于手写数字识别领域的经典MNIST数据集,对其进行扩展,增添了异常检测的研究维度。该数据集由Chainer3框架支持,创建于深度学习研究日益深入的时期,旨在为研究人员提供一个包含正常手写数字及异常样本的综合性数据集。核心研究问题聚焦于如何在大量正常样本中识别出少量的异常图像。由于其具有明确的标注和丰富的样本,该数据集在模式识别和异常检测领域产生了广泛的影响。
当前挑战
数据集面临的挑战主要体现在两个方面:一是如何提高异常检测的准确性,尤其是在正常样本数量远大于异常样本的情况下;二是构建过程中,如何合理地划分和整合正常与异常样本,以及如何确保异常样本的多样性和代表性。这些挑战对于提升算法的泛化能力和鲁棒性具有重要意义。
常用场景
经典使用场景
在模式识别与机器学习领域,MNIST with anomaly datasets数据集的经典使用场景主要在于训练模型以识别手写数字,同时具备异常检测的功能。该数据集提供了大量的手写数字图像,其中既包括正常图像,也包含异常图像,使得研究者能够在一个综合环境中训练和测试模型对于异常值的识别能力。
衍生相关工作
MNIST with anomaly datasets数据集衍生出了众多相关研究工作,包括但不限于深度学习模型在异常检测中的应用、无监督学习在异常识别领域的探索等。这些研究进一步扩展了该数据集的应用范围,推动了异常检测技术的发展,为后续的学术研究和应用提供了丰富的理论基础和实践经验。
数据集最近研究
最新研究方向
在计算机视觉领域,异常检测是当前研究的热点之一。MNIST with anomaly datasets作为扩展的MNIST数据集,包含大量带有异常的手写数字图像,为该领域提供了新的研究方向。研究者们利用此数据集,正深入探索深度学习模型,尤其是自编码器与度量学习在异常检测中的应用,旨在提高模型对异常样本的识别能力,这对于金融欺诈检测、医疗影像诊断等领域具有重要的实践意义。
以上内容由遇见数据集搜集并总结生成



