Virus-MNIST

Name: Virus-MNIST
Creator: 人民泰克公司
Published: 2021-03-01 03:55:19
License: 暂无描述

arXiv2021-03-01 更新2024-06-21 收录

下载链接：

https://www.kaggle.com/datamunge/virusmnist 和 https://github.com/reveondivad/virusmnist

下载链接

链接失效反馈

官方服务：

资源简介：

Virus-MNIST是一个用于恶意软件检测的图像分类数据集，由人民泰克公司创建。该数据集包含约50,000个病毒样本，涵盖9个计算机病毒家族和一个良性集合。数据集通过将可移植执行文件（PE）的前1024字节转换为32x32像素的灰度图像来创建，模拟了MNIST手写数据集的格式。创建过程中使用了KMeans聚类算法来识别病毒家族。Virus-MNIST主要应用于深度学习领域，旨在通过图像识别技术提高恶意软件的检测准确率，解决传统基于签名的检测方法的局限性。

Virus-MNIST is an image classification dataset for malware detection, created by PeopleTec Inc. This dataset contains approximately 50,000 malware samples, covering 9 computer virus families and one benign sample set. It is constructed by converting the first 1024 bytes of Portable Executable (PE) files into 32×32 grayscale images, mimicking the format of the MNIST handwritten digit dataset. The K-Means clustering algorithm was utilized during the dataset creation to identify virus families. Primarily applied in the deep learning field, Virus-MNIST aims to improve malware detection accuracy via image recognition technologies, addressing the limitations of traditional signature-based detection methods.

提供机构：

人民泰克公司

创建时间：

2021-03-01

搜集汇总

数据集介绍

构建方式

Virus-MNIST数据集由David A.Noever和Samantha E.Miller Noever创建，旨在为恶意软件检测提供一个基准。该数据集包含了10种可执行代码变体和大约50,000个病毒示例。恶意软件类别包括9个计算机病毒家族和1个良性集。该数据集的构建方式是将可移植可执行文件(PE)的前1024字节转换为图像格式，类似于MNIST手写数据集。通过使用KMeans聚类算法，将病毒家族进行分类，并将非恶意软件排除在外。然后，基于灰度缩略图(32x32像素)对病毒家族进行识别。

特点

Virus-MNIST数据集的特点包括：1. 包含了10种可执行代码变体和大约50,000个病毒示例，提供了丰富的恶意软件数据。2. 使用KMeans聚类算法将病毒家族进行分类，具有较好的分类效果。3. 将PE文件的前1024字节转换为图像格式，为深度学习算法提供了可操作的输入。4. 数据集在Kaggle和Github上公开可用，方便研究人员使用。

使用方法

使用Virus-MNIST数据集的方法包括：1. 下载数据集并解压。2. 根据需要选择数据集的格式，包括CSV格式、JPEG图像格式和MNIST二进制格式。3. 使用深度学习算法(如MobileNetV2)进行训练和测试，评估算法的性能。4. 可以使用数据增强技术来提高算法的准确率。5. 可以将数据集应用于其他恶意软件检测任务，例如病毒家族识别。

背景与挑战

背景概述

Virus-MNIST数据集是由David A.Noever和Samantha E.Miller Noever于2019年创建的一个图像分类数据集，旨在为恶意软件检测提供一个基准。该数据集包含了10种可执行代码变体和大约50,000个病毒示例，恶意类别包括9种计算机病毒家族和一个良性集合。数据集的图像格式模拟了MNIST手写数字数据集的前1024字节可移植可执行(PE)文件头，使得大多数之前探索的算法方法只需进行少量修改即可迁移。Virus-MNIST数据集的主要研究人员来自PeopleTec,Inc.,Huntsville,Alabama,USA。该数据集通过KMeans聚类方法，从字节相似性中发现了9种病毒家族，并基于灰度缩略图(32x 32)识别病毒家族。使用深度学习方法(MobileNetV2)进行基准测试，发现当包含良性软件时，病毒识别的准确率总体达到80%。该数据集对相关领域的影响力体现在，它将图像识别问题重新定义为熟悉的MNIST变体，为恶意软件检测领域提供了新的研究方向。

当前挑战

Virus-MNIST数据集所面临的挑战包括：1)所解决的领域问题是恶意软件检测，其中恶意软件作者不断改变单个字节以欺骗基于哈希的签名，但CNN检测通常对小的图像变化不太敏感。2)构建过程中遇到的挑战包括，将文件头减少为图像可能会产生误导性的结果，因为PE头作为恶意软件的指标可能并不精确，或者良性头特征可能被用于伪装恶意软件。此外，KMeans聚类方法排除了非恶意软件，可能会影响分类的准确性。为了解决这些挑战，未来的工作可以探索其他聚类方法，例如基于密度的DBSCAN，以优化紧密的组并减少重叠。还可以使用MD5哈希来确定病毒家族，并避免聚类，从而防止CNN简单地模拟无监督的KMeans算法本身，而不是恶意软件的自然分布。此外，未来的工作应该增加更多样本，特别是非恶意可执行文件的样本，以解决恶意软件和良性软件之间的不平衡问题。

常用场景

经典使用场景

Virus-MNIST数据集在恶意软件检测领域具有广泛的应用。该数据集通过将恶意软件的PE文件头部前1024字节转换为灰度图像，形成了一个类似于MNIST手写数字数据集的格式，使得传统的图像识别算法可以轻松迁移到恶意软件检测领域。研究人员可以使用Virus-MNIST数据集来训练和评估各种恶意软件检测算法，包括深度学习模型，如MobileNetV2。通过这种方式，Virus-MNIST数据集为恶意软件检测领域提供了一个标准化的基准数据集，有助于推动该领域的研究和发展。

实际应用

Virus-MNIST数据集在实际应用中具有广泛的应用场景。例如，安全软件开发商可以使用Virus-MNIST数据集来训练和评估他们的恶意软件检测算法，以提高其产品的检测准确性和鲁棒性。此外，网络安全研究人员可以使用Virus-MNIST数据集来研究恶意软件的传播规律和特征，以开发更有效的恶意软件防护策略。此外，Virus-MNIST数据集还可以用于教育领域，例如，在计算机科学和网络安全课程中，教师可以使用Virus-MNIST数据集来展示恶意软件检测的原理和方法。

衍生相关工作

Virus-MNIST数据集衍生了许多相关的研究工作。例如，一些研究人员使用Virus-MNIST数据集来研究和开发基于深度学习的恶意软件检测算法，如MobileNetV2和ResNet。这些算法在恶意软件检测任务中取得了优异的性能，并已经在实际应用中得到应用。此外，一些研究人员还使用Virus-MNIST数据集来研究恶意软件的特征和传播规律，以开发更有效的恶意软件防护策略。例如，一些研究人员使用Virus-MNIST数据集来研究恶意软件的传播规律和特征，以开发更有效的恶意软件防护策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集