Adversarial Malware Dataset

Name: Adversarial Malware Dataset
Creator: 捷克技术大学·信息学院·信息安全系
Published: 2026-05-25 23:17:02
License: 暂无描述

arXiv2026-05-25 更新2026-05-27 收录

下载链接：

https://arxiv.org/abs/2605.25937v1

下载链接

链接失效反馈

官方服务：

资源简介：

该对抗性恶意软件数据集由捷克技术大学研究团队构建，基于真实世界恶意软件样本库RawMal-TF生成，包含按家族和类型标记的两个子集共计77,943个对抗性PE文件。数据集采用多种对抗生成技术（包括Gym-malware、MAB-Malware等工具）对原始恶意软件进行功能保持性修改，每个样本均附带详细的元数据，包括EMBER分类器评分和VirusTotal检测结果。该数据集专门设计用于评估机器学习恶意软件检测系统的鲁棒性，支持对抗训练、数据投毒攻击研究等安全应用场景，旨在提升网络安全防御体系对抗新型逃避攻击的能力。

This adversarial malware dataset was constructed by a research team at the Czech Technical University in Prague, based on the real-world malware sample repository RawMal-TF. It contains two subsets labeled by malware family and type, totaling 77,943 adversarial PE files. The dataset utilizes multiple adversarial generation techniques (including tools such as Gym-malware and MAB-Malware) to conduct functionality-preserving modifications on original malware samples. Each sample is accompanied by detailed metadata, including EMBER classifier scores and VirusTotal detection results. This dataset is specifically designed to evaluate the robustness of machine learning-based malware detection systems, supporting security application scenarios such as adversarial training and data poisoning attack research, with the goal of improving the ability of cybersecurity defense systems to counter novel evasion attacks.

提供机构：

捷克技术大学·信息学院·信息安全系

创建时间：

2026-05-25

原始信息汇总

数据集概述

本数据集专注于对抗性恶意软件样本构建，旨在评估和提升基于机器学习的恶意软件检测系统的鲁棒性。

来源数据集：基于公开的 RawMal-TF 真实恶意软件二进制文件集合生成。
生成方法：使用一套对抗性恶意软件生成器，构建了两组对抗性PE文件样本。
样本规模：
- 家族标签样本：共 44,347 个样本。
- 类型标签样本：共 33,596 个样本。
逃逸性能：
- 家族标签样本针对 EMBER 分类器的逃逸率高达 98.35%。
- 类型标签样本针对 EMBER 分类器的逃逸率为 92.20%。
元数据：每个对抗性二进制文件均附带详细的元数据，包括 EMBER 评分和 VirusTotal 分类结果。
数据中毒实验：通过训练实验证明，该数据集可被用于数据中毒攻击研究。实验表明，在家族标签数据集的训练数据中注入仅占 0.5% 的完全错误标记的对抗性样本，可将重新训练后的分类器的逃逸率从 26.1% 提升至 92.8%。
主题领域：归属计算机科学下的 密码学与安全 (cs.CR) 和 机器学习 (cs.LG)。
发布状态：数据集已公开发布，旨在促进对抗性恶意软件、中毒攻击以及基于机器学习的恶意软件检测系统鲁棒性方面的未来研究。

搜集汇总

数据集介绍

构建方式

该数据集基于公开的RawMal-TF真实恶意软件集合，利用一套对抗性恶意软件生成器构建。研究团队部署了五种生成器（Pesidious、MAB-Malware、AMG、GAMMA Sections和MalwareTotal），并在六种配置下运行，其中MalwareTotal分别以EMBER和EMBER2024作为目标分类器。通过容器化流水线实现并行生成，并设计算法根据EMBER分数和文件大小增幅选择每个源样本的最佳对抗变体，最终构建出44,347个家族标记样本和33,596个类型标记样本。

特点

该数据集的两大核心特点在于多样性与元数据丰富性。样本来自多种生成器，采用不同的规避策略（如RL和遗传算法），并涵盖EMBER与EMBER2024双目标，从而增强了对抗样本的多样性。每个对抗二进制文件均附带详尽的元数据，包括EMBER评分、EMBER2024评分以及VirusTotal分类结果，便于研究者按需筛选。在原始EMBER检测到的恶意样本中，家族标记数据集实现了98.35%的规避率，类型标记数据集达到92.20%，体现了高度的对抗有效性。

使用方法

研究者可直接下载对抗二进制文件及其元数据，通过筛选EMBER评分或VirusTotal检测结果来选取特定子集，用于对抗训练或鲁棒性评估。数据集特别适用于数据投毒研究：论文展示了在训练集中仅注入0.5%的完全错误标记对抗样本，即可将重新训练后分类器的规避率从26.1%提升至92.8%。用户可通过提供的GitHub仓库获取完整样本列表与下载链接，并根据需求进行过滤，以支持对机器学习恶意软件检测系统防御能力的纵深研究。

背景与挑战

背景概述

在网络安全领域，恶意软件检测与机器学习模型的对抗性攻防始终是一场此消彼长的拉锯战。传统基于静态签名的检测方法早已不足以应对日益复杂的威胁，而机器学习分类器的广泛部署又为攻击者提供了新的突破口——精心构造的对抗性样本能在保留恶意功能的前提下逃避检测。在此背景下，捷克理工大学信息安全系的David Košťál与Martin Jureček于2026年发布了Adversarial Malware Dataset，旨在填补大规模、公开可用真实恶意软件对抗样本的空白。该数据集以RawMal-TF真实恶意软件集合为基底，利用五种对抗生成器（含六种配置）构建了44,347个家族标签样本与33,596个类型标签样本。针对EMBER分类器，两个子集分别实现了98.35%和92.20%的逃逸率。数据集的发布为对抗性训练、数据投毒攻击及ML检测系统鲁棒性评估提供了关键资源，有力推动了该领域的研究进程。

当前挑战

该数据集构建与研究所面临的挑战深刻而多元。首先，所解决的领域问题核心在于：机器学习驱动的恶意软件检测系统极易被对抗性样本所欺骗，而现有公开数据集中缺乏大规模、经过系统生成并附带丰富元数据的真实可执行对抗样本，导致防御研究缺乏坚实的基准与训练材料。其次，构建过程中的工程挑战尤为突出：多数对抗生成器依赖过时的库与环境，设计定位为研究原型而非稳定软件，运行时常出现进程挂起、依赖冲突等故障，需通过容器化与定制化脚本逐一排查修复。更棘手的是，现有生成器对高级分类器（如EMBER2024）的逃逸能力普遍有限，难以在合理时间和空间约束内产生有效样本。此外，生成器输出的质量参差不齐，例如Pesidious出现了样本崩溃与未修改返回的异常模式，AMG则因生成超1GB文件而被VirusTotal拒绝。最终，数据投毒实验揭示了另一层困境：仅注入0.5%完全错误标记的对抗样本，即可将逃逸率从26.1%飙升至92.8%，而F1分数却几乎不变，这种隐蔽的性能坍塌使得传统评估指标难以预警训练数据污染的风险。

常用场景

经典使用场景

在网络安全的学术疆域中，Adversarial Malware Dataset 最经典的应用场景是作为对抗性恶意软件样本的基准测试库，用于评估和提升基于机器学习（ML）的恶意软件检测系统的鲁棒性。该数据集从真实的 RawMal-TF 恶意软件集合出发，利用多种对抗性生成器（如 MAB-Malware、Pesidious、AMG 等）构建了超过 44,000 个按家族标注和 33,000 个按类型标注的对抗性 PE 文件。这些样本在 EMBER 分类器上实现了高达 98.35%（家族标签）和 92.20%（类型标签）的逃逸率，为研究者提供了一个可控、可复现的实验平台，用以系统性地探究分类器在面对功能保持的对抗性修改时的脆弱性。

衍生相关工作

该数据集的诞生催生了一系列开拓性的学术工作。最直接的相关方向是对抗性生成器的比较与改进：研究者基于该数据集评估了 Gym-malware、MAB-Malware、Pesidious、AMG、GAMMA Sections 及 MalwareTotal 六种生成器的逃逸效率，发现不同生成器在逃逸 EMBER、MalConv 及商业 AV 产品时表现各异，其中 MalwareTotal 针对 EMBER2024 的变体表现出最高的逃逸率。此外，数据集推动了数据投毒攻击的定量研究，催生了如“转移性率”（τ）等概念，用于描述对抗性样本在不同分类器间的逃逸能力。这些工作共同构建了从生成、评估到防御的完整研究链条，为后续的对抗性机器学习文献提供了标准化的测试基准。

数据集最近研究