Obfuscated Malware Dataset (OMD)

Name: Obfuscated Malware Dataset (OMD)
Creator: 中国工程物理研究院计算机应用研究所
Published: 2023-09-25 00:28:35
License: 暂无描述

arXiv2023-09-25 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2310.10670v1

下载链接

链接失效反馈

官方服务：

资源简介：

Obfuscated Malware Dataset (OMD)是由中国工程物理研究院计算机应用研究所CIPMA实验室创建的大型恶意软件数据集，包含来自40个不同家族的21,924个样本。该数据集通过应用多种混淆技术，模拟恶意软件作者使用的策略，以创建与原始样本不同的恶意软件变种。OMD旨在为评估恶意软件分析技术的有效性提供一个更真实和代表性的环境。数据集主要用于支持机器学习算法的研究，如支持向量机(SVM)、随机森林(RF)和极端梯度提升(XGBOOST)等，以提高对复杂恶意软件变种的检测能力。

Obfuscated Malware Dataset (OMD) is a large-scale malware dataset developed by the CIPMA Laboratory of the Institute of Computer Applications, China Academy of Engineering Physics. It contains 21,924 samples belonging to 40 distinct malware families. This dataset applies multiple obfuscation techniques to simulate the strategies adopted by malware authors, thereby creating malware variants that differ from their original samples. OMD aims to provide a more realistic and representative environment for evaluating the effectiveness of malware analysis technologies. The dataset is primarily used to support research on machine learning algorithms such as Support Vector Machine (SVM), Random Forest (RF), and Extreme Gradient Boosting (XGBoost), so as to enhance the detection capability against complex malware variants.

提供机构：

中国工程物理研究院计算机应用研究所

创建时间：

2023-09-25

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，恶意软件变种的快速演化对传统检测方法构成严峻挑战。Obfuscated Malware Dataset (OMD) 的构建旨在模拟真实世界中的恶意软件混淆行为，其构建过程整合了三个核心数据源：Malimg 数据集、Kaggle 微软恶意软件分类挑战（BIG 2015）数据集以及新构建的 Tiny Obfuscated Malware Dataset (TinyOMD)。通过系统化应用混淆技术，包括死代码插入、子程序重排序、寄存器重分配等代码级混淆，以及掩码、模糊、扭曲等图像级混淆，最终生成了包含 40 个恶意软件家族、共计 21924 个样本的综合数据集。该过程还引入了随机加密与数据增强策略，以提升数据集的多样性与代表性。

特点

OMD 数据集的核心特点在于其高度仿真的混淆恶意软件样本集合，涵盖了从广告软件、后门程序到特洛伊木马等多种恶意软件类型。数据集通过系统化的混淆处理，模拟了恶意软件作者为逃避检测而采用的多样化策略，从而为评估恶意软件分析技术的鲁棒性提供了接近真实的测试环境。其样本规模较大且家族分布广泛，同时包含了经过加密处理的子集，进一步增强了数据集的复杂性与挑战性。这些特征使得 OMD 成为研究混淆与多态恶意软件检测的理想基准数据资源。

使用方法

该数据集主要应用于恶意软件分类与检测算法的性能评估。研究人员可将其划分为训练集与测试集，常见划分比例为 70:30，以支持监督学习模型的训练与验证。数据集适用于传统机器学习算法（如支持向量机、随机森林、XGBoost）以及深度学习模型的测试，通过准确率、精确率、召回率与 F1 分数等指标综合评价模型在混淆恶意软件识别上的效能。使用前需对图像或代码形式的样本进行预处理，并注意数据增强策略的应用，以提升模型的泛化能力与鲁棒性。

背景与挑战

背景概述

在数字时代网络安全威胁日益严峻的背景下，恶意软件（Malware）的变种与混淆技术成为防御体系的主要挑战。为应对这一难题，Suleman Qamar及其所属的CIPMA实验室于2023年提出了混淆恶意软件数据集（Obfuscated Malware Dataset, OMD）。该数据集整合了Malimg、Kaggle微软恶意软件分类挑战赛数据集及自主收集的样本，通过应用代码与图像层面的多重混淆技术，构建了包含40个恶意软件家族、共计21924个样本的标准化资源。其核心研究目标在于模拟恶意软件作者常用的混淆与多态性策略，为评估恶意软件分析技术的鲁棒性提供更贴近真实攻击场景的测试环境，进而推动恶意软件变种识别与分类领域的研究进展。

当前挑战

OMD数据集旨在应对恶意软件变种识别领域的核心挑战：传统基于签名的检测方法难以有效识别经过混淆或多态性技术处理的恶意软件变种，导致安全防护体系存在显著漏洞。在数据集构建过程中，研究人员面临多重挑战：首先，需通过死代码插入、寄存器重分配、指令替换等代码混淆技术，以及图像掩码、扭曲、标记化等视觉混淆方法，在保持恶意功能不变的前提下有效改变样本特征，以模拟真实世界中的恶意软件演化行为；其次，需整合来自不同来源且格式各异的恶意软件样本，并确保标注的一致性与家族分类的准确性，这一过程涉及复杂的预处理与特征对齐工作。

常用场景

经典使用场景

在网络安全领域，恶意软件变种的识别与分类是防御体系中的核心挑战。Obfuscated Malware Dataset (OMD) 通过集成多种混淆技术，模拟了恶意软件作者为逃避检测而采用的策略，为研究者提供了一个高度逼真的评估环境。该数据集广泛应用于机器学习算法的性能测试，特别是支持向量机、随机森林和XGBoost等传统模型，在恶意软件家族分类任务中展现出卓越的适用性，成为评估检测技术鲁棒性的经典基准。

解决学术问题

OMD 数据集主要解决了恶意软件分析中因混淆技术导致的变种识别难题。传统检测方法往往依赖于静态签名，难以应对经过代码重排、寄存器重分配或图像扭曲等混淆手段的恶意软件。该数据集通过包含40个家族共21924个样本，并应用多种混淆技术，为学术界提供了研究新型检测算法的可靠数据基础，显著提升了模型在复杂对抗环境下的泛化能力，推动了恶意软件分类领域的理论进展。

衍生相关工作

基于 OMD 数据集，多项经典研究工作得以衍生，主要集中在机器学习模型的改进与集成。例如，研究团队利用该数据集对比了XGBoost、随机森林和支持向量机等算法的性能，其中XGBoost在准确率、精确率和召回率上表现突出。此外，该数据集还促进了集成学习方法如投票机制的应用，以及深度学习框架在恶意软件图像分类中的探索，为后续研究提供了重要的数据支撑和方法启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集