Malware-binary-images-Dataset

github2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/panzerjagerWang/Malware-binary-images-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这些是用于恶意软件检测的VM加密恶意软件二进制图像数据集和原始恶意软件二进制图像数据集，包括APT1、10、28、29、30、DarkHotel、EnergeticBear、EquationGroup、GorgonGroup、Winnti等。

These datasets consist of VM-encrypted malware binary image data and raw malware binary image data for malware detection, including those associated with APT1, APT10, APT28, APT29, APT30, DarkHotel, EnergeticBear, EquationGroup, GorgonGroup, Winnti, and others.

创建时间：

2025-06-04

原始信息汇总

Malware-binary-images-Dataset 数据集概述

数据集类型

VM加密的恶意软件二进制图像数据集
原始恶意软件二进制图像数据集

数据集内容

VM加密数据集：用于恶意软件检测
原始数据集：包含多种恶意软件家族，具体如下：
- APT1
- APT10
- APT28
- APT29
- APT30
- DarkHotel
- EnergeticBear
- EquationGroup
- GorgonGroup
- Winnti

下载链接

VM加密数据集下载地址：https://drive.google.com/file/d/1X5Iat0MAgZOLVCPj98pqJofJdetmL_yN/view?usp=drive_link
原始数据集下载地址：https://drive.google.com/file/d/1X5Iat0MAgZOLVCPj98pqJofJdetmL_yN/view?usp=drive_link

搜集汇总

数据集介绍

构建方式

在网络安全领域，恶意软件检测一直是研究热点。Malware-binary-images-Dataset的构建采用了独特的二进制图像转换技术，将恶意软件的可执行文件直接转换为灰度图像表示。该数据集包含两个子集：原始恶意软件二进制图像数据集和VM加密版本，涵盖了APT1、DarkHotel、EquationGroup等十余种高级持续性威胁样本。数据采集过程严格遵循安全规范，所有样本均在隔离环境中进行处理以确保实验安全性。

特点

该数据集的突出特点在于其多维度的恶意软件表征能力。二进制图像转换不仅保留了原始文件的熵特征和结构信息，还通过可视化形式展现了恶意代码的空间分布模式。VM加密版本进一步模拟了真实环境中恶意软件的反检测机制，为研究对抗性样本检测提供了宝贵资源。数据集涵盖的APT组织样本具有高度代表性，能够有效支持从基础检测到高级威胁分析的各类研究需求。

使用方法

研究人员可通过提供的Google Drive链接获取两个版本的数据集。原始图像适用于常规的静态特征分析，建议使用卷积神经网络提取空间特征；VM加密版本则更适合研究对抗样本和动态分析技术。使用前需在虚拟环境中加载样本，推荐配合PE文件分析工具进行交叉验证。数据集可应用于恶意软件分类、异常检测、对抗攻击等多个研究方向，但需注意遵守相关法律法规和伦理规范。

背景与挑战

背景概述

Malware-binary-images-Dataset是一个专注于恶意软件检测领域的重要数据集，由网络安全研究人员构建，旨在通过二进制图像分析技术提升恶意软件的识别效率。该数据集涵盖了多种高级持续性威胁（APT）组织样本，包括APT1、DarkHotel、EnergeticBear等知名攻击组织的恶意代码。通过将恶意软件二进制文件转换为可视化的图像形式，研究者能够利用计算机视觉和深度学习技术进行高效的恶意软件分类与检测。这一创新方法为网络安全领域提供了新的研究思路，显著推动了恶意软件自动化检测技术的发展。

当前挑战

该数据集面临的挑战主要集中在两个维度。在领域问题层面，恶意软件检测需要应对不断演变的攻击手法和高度混淆的代码结构，这对模型的泛化能力和鲁棒性提出了极高要求。构建过程中，研究人员需解决样本收集的合法性与多样性问题，同时二进制到图像的转换过程涉及复杂的特征保留与噪声处理，任何信息损失都可能导致检测准确率下降。此外，加密恶意软件样本的分析进一步增加了数据处理的复杂度，要求算法具备更强的抗干扰能力。

常用场景

经典使用场景

在网络安全领域，恶意软件检测一直是研究的热点之一。Malware-binary-images-Dataset通过将恶意软件二进制文件转换为图像形式，为研究人员提供了一种新颖的分析视角。这一数据集广泛应用于基于深度学习的恶意软件分类和检测任务，特别是卷积神经网络（CNN）等视觉模型在处理恶意软件图像时的性能评估。

解决学术问题

该数据集有效解决了传统恶意软件检测方法中特征提取困难、泛化能力不足的问题。通过将二进制文件映射为图像，研究人员能够利用计算机视觉领域的成熟技术，实现更高效的恶意软件家族分类和变种识别。这一方法显著提升了检测准确率，并为恶意软件行为模式的可视化分析提供了新的研究范式。

衍生相关工作

基于该数据集，学术界已衍生出多项重要研究成果。包括基于迁移学习的跨家族恶意软件检测框架、结合注意力机制的恶意软件图像分类算法，以及面向未知威胁的零样本学习检测方案。这些工作发表在IEEE S&P、USENIX Security等顶级安全会议上，推动了整个恶意软件检测领域的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集