Virus-MNIST
收藏arXiv2021-03-01 更新2024-06-21 收录
下载链接:
https://www.kaggle.com/datamunge/virusmnist 和 https://github.com/reveondivad/virusmnist
下载链接
链接失效反馈官方服务:
资源简介:
Virus-MNIST是一个用于恶意软件检测的图像分类数据集,由人民泰克公司创建。该数据集包含约50,000个病毒样本,涵盖9个计算机病毒家族和一个良性集合。数据集通过将可移植执行文件(PE)的前1024字节转换为32x32像素的灰度图像来创建,模拟了MNIST手写数据集的格式。创建过程中使用了KMeans聚类算法来识别病毒家族。Virus-MNIST主要应用于深度学习领域,旨在通过图像识别技术提高恶意软件的检测准确率,解决传统基于签名的检测方法的局限性。
Virus-MNIST is an image classification dataset for malware detection, created by PeopleTec Inc. This dataset contains approximately 50,000 malware samples, covering 9 computer virus families and one benign sample set. It is constructed by converting the first 1024 bytes of Portable Executable (PE) files into 32×32 grayscale images, mimicking the format of the MNIST handwritten digit dataset. The K-Means clustering algorithm was utilized during the dataset creation to identify virus families. Primarily applied in the deep learning field, Virus-MNIST aims to improve malware detection accuracy via image recognition technologies, addressing the limitations of traditional signature-based detection methods.
提供机构:
人民泰克公司
创建时间:
2021-03-01
搜集汇总
数据集介绍

构建方式
Virus-MNIST数据集由David A.Noever和Samantha E.Miller Noever创建,旨在为恶意软件检测提供一个基准。该数据集包含了10种可执行代码变体和大约50,000个病毒示例。恶意软件类别包括9个计算机病毒家族和1个良性集。该数据集的构建方式是将可移植可执行文件(PE)的前1024字节转换为图像格式,类似于MNIST手写数据集。通过使用KMeans聚类算法,将病毒家族进行分类,并将非恶意软件排除在外。然后,基于灰度缩略图(32x32像素)对病毒家族进行识别。
特点
Virus-MNIST数据集的特点包括:1. 包含了10种可执行代码变体和大约50,000个病毒示例,提供了丰富的恶意软件数据。2. 使用KMeans聚类算法将病毒家族进行分类,具有较好的分类效果。3. 将PE文件的前1024字节转换为图像格式,为深度学习算法提供了可操作的输入。4. 数据集在Kaggle和Github上公开可用,方便研究人员使用。
使用方法
使用Virus-MNIST数据集的方法包括:1. 下载数据集并解压。2. 根据需要选择数据集的格式,包括CSV格式、JPEG图像格式和MNIST二进制格式。3. 使用深度学习算法(如MobileNetV2)进行训练和测试,评估算法的性能。4. 可以使用数据增强技术来提高算法的准确率。5. 可以将数据集应用于其他恶意软件检测任务,例如病毒家族识别。
背景与挑战
背景概述
Virus-MNIST数据集是由David A.Noever和Samantha E.Miller Noever于2019年创建的一个图像分类数据集,旨在为恶意软件检测提供一个基准。该数据集包含了10种可执行代码变体和大约50,000个病毒示例,恶意类别包括9种计算机病毒家族和一个良性集合。数据集的图像格式模拟了MNIST手写数字数据集的前1024字节可移植可执行(PE)文件头,使得大多数之前探索的算法方法只需进行少量修改即可迁移。Virus-MNIST数据集的主要研究人员来自PeopleTec,Inc.,Huntsville,Alabama,USA。该数据集通过KMeans聚类方法,从字节相似性中发现了9种病毒家族,并基于灰度缩略图(32x 32)识别病毒家族。使用深度学习方法(MobileNetV2)进行基准测试,发现当包含良性软件时,病毒识别的准确率总体达到80%。该数据集对相关领域的影响力体现在,它将图像识别问题重新定义为熟悉的MNIST变体,为恶意软件检测领域提供了新的研究方向。
当前挑战
Virus-MNIST数据集所面临的挑战包括:1)所解决的领域问题是恶意软件检测,其中恶意软件作者不断改变单个字节以欺骗基于哈希的签名,但CNN检测通常对小的图像变化不太敏感。2)构建过程中遇到的挑战包括,将文件头减少为图像可能会产生误导性的结果,因为PE头作为恶意软件的指标可能并不精确,或者良性头特征可能被用于伪装恶意软件。此外,KMeans聚类方法排除了非恶意软件,可能会影响分类的准确性。为了解决这些挑战,未来的工作可以探索其他聚类方法,例如基于密度的DBSCAN,以优化紧密的组并减少重叠。还可以使用MD5哈希来确定病毒家族,并避免聚类,从而防止CNN简单地模拟无监督的KMeans算法本身,而不是恶意软件的自然分布。此外,未来的工作应该增加更多样本,特别是非恶意可执行文件的样本,以解决恶意软件和良性软件之间的不平衡问题。
常用场景
经典使用场景
Virus-MNIST数据集在恶意软件检测领域具有广泛的应用。该数据集通过将恶意软件的PE文件头部前1024字节转换为灰度图像,形成了一个类似于MNIST手写数字数据集的格式,使得传统的图像识别算法可以轻松迁移到恶意软件检测领域。研究人员可以使用Virus-MNIST数据集来训练和评估各种恶意软件检测算法,包括深度学习模型,如MobileNetV2。通过这种方式,Virus-MNIST数据集为恶意软件检测领域提供了一个标准化的基准数据集,有助于推动该领域的研究和发展。
实际应用
Virus-MNIST数据集在实际应用中具有广泛的应用场景。例如,安全软件开发商可以使用Virus-MNIST数据集来训练和评估他们的恶意软件检测算法,以提高其产品的检测准确性和鲁棒性。此外,网络安全研究人员可以使用Virus-MNIST数据集来研究恶意软件的传播规律和特征,以开发更有效的恶意软件防护策略。此外,Virus-MNIST数据集还可以用于教育领域,例如,在计算机科学和网络安全课程中,教师可以使用Virus-MNIST数据集来展示恶意软件检测的原理和方法。
衍生相关工作
Virus-MNIST数据集衍生了许多相关的研究工作。例如,一些研究人员使用Virus-MNIST数据集来研究和开发基于深度学习的恶意软件检测算法,如MobileNetV2和ResNet。这些算法在恶意软件检测任务中取得了优异的性能,并已经在实际应用中得到应用。此外,一些研究人员还使用Virus-MNIST数据集来研究恶意软件的特征和传播规律,以开发更有效的恶意软件防护策略。例如,一些研究人员使用Virus-MNIST数据集来研究恶意软件的传播规律和特征,以开发更有效的恶意软件防护策略。
以上内容由遇见数据集搜集并总结生成



