AMG18

Name: AMG18
Creator: 济南大学信息科学与技术学院, 香港理工大学计算机系, 吉林大学信息与计算科学学院, 湘潭大学计算机学院
Published: 2025-02-11 19:51:12
License: 暂无描述

arXiv2025-02-11 更新2025-02-13 收录

下载链接：

https://anonymous.4open.science/r/RoMA-D767

下载链接

链接失效反馈

官方服务：

资源简介：

AMG18是一个新型APT恶意软件数据集，由济南大学信息科学与技术学院、香港理工大学计算机系等机构创建。该数据集包含多样化的样本和现实世界的类不平衡特性，用于评估恶意软件归因模型的性能。数据集通过直接处理原始字节序列来简化特征提取和反汇编过程，为APT恶意软件归因研究提供了便利。

AMG18 is a novel Advanced Persistent Threat (APT) malware dataset developed by institutions including the School of Information Science and Technology at the University of Jinan, the Department of Computer Science at The Hong Kong Polytechnic University, and other relevant organizations. This dataset features diverse samples and real-world class imbalance characteristics, and is intended to evaluate the performance of malware attribution models. By directly processing raw byte sequences, the dataset simplifies the processes of feature extraction and disassembly, thus facilitating research on APT malware attribution.

提供机构：

济南大学信息科学与技术学院, 香港理工大学计算机系, 吉林大学信息与计算科学学院, 湘潭大学计算机学院

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

AMG18数据集的构建方式是通过收集和整合来自不同APT（高级持续性威胁）组织的恶意软件样本。该数据集包含来自18个APT组织的6360个实例，每个组织至少有100个样本，确保了数据的多样性和覆盖范围。样本的标签由安全分析师进行验证，确保了数据的准确性。数据集的构建考虑到了现实世界中的类不平衡问题，以反映真实的威胁环境。为了评估模型的性能，数据集被分为80%的训练集和20%的测试集。

特点

AMG18数据集的特点在于其样本的多样性和类不平衡的真实性。数据集包含了来自18个不同的APT组织的恶意软件样本，涵盖了广泛的不同攻击技术和策略。这种多样性使得数据集能够用于训练和评估能够处理多种攻击向量的模型。此外，数据集的类不平衡反映了现实世界中的威胁环境，这对于评估模型的泛化能力和鲁棒性至关重要。AMG18数据集还提供了足够多的样本，每个组织至少有100个样本，这有助于减少过拟合的风险，并支持稳健的模型训练和评估。

使用方法

AMG18数据集的使用方法包括将其作为训练和评估恶意软件归属模型的数据源。数据集的多样性和类不平衡性使得它成为测试模型泛化能力和鲁棒性的理想选择。用户可以使用数据集来训练新的模型，或者使用现有的模型来评估其在对抗性攻击下的性能。数据集的分割（80%训练集和20%测试集）允许用户进行独立的训练和测试，以便于模型性能的准确评估。此外，数据集还提供了丰富的标签信息，可以用于监督学习任务，帮助模型学习如何将恶意软件样本归类到正确的APT组织。

背景与挑战

背景概述

随着高级持续性威胁（APT）恶意软件的日益增多，对这些恶意软件进行归属分析对于威胁情报和网络安全至关重要。AMG18数据集正是在这一背景下创建的，旨在解决APT恶意软件归属分析中的对抗性问题。该数据集由Sun Yuxia等人于2025年提出，主要研究人员来自金纳米大学信息科学与技术学院、香港理工大学计算机科学系、吉林大学信息与计算科学学院以及湘潭大学计算机科学学院。AMG18数据集的创建是为了评估RoMA（Robust Malware Attribution via Byte-level Adversarial Training with Global Perturbations and Adversarial Consistency Regularization）这一新型单步对抗训练方法的有效性。RoMA通过整合全局扰动和对抗一致性正则化，有效地训练了APT恶意软件的鲁棒性归因模型，使其能够抵御高级对抗性攻击。AMG18数据集的引入，为APT恶意软件归属研究提供了具有多样性和现实类别不平衡的样本，对于提升模型的鲁棒性和准确性具有重要意义。

当前挑战

AMG18数据集的创建和应用面临着多方面的挑战。首先，APT恶意软件归属分析本身就是一个对抗性任务，攻击者通常会隐藏其身份，这使得归属分析变得复杂且具有挑战性。其次，现有的基于机器学习的归属模型在面对对抗性攻击时容易受到攻击，例如，MalConv模型的准确率在PGD攻击下会从90%以上降至2%以下。此外，构建鲁棒的恶意软件检测模型需要提高模型的训练效率和准确性，而现有的对抗训练技术在这方面还有待改进。为了应对这些挑战，RoMA方法提出了全局扰动策略和对抗一致性正则化策略，以生成更强的对抗性样本并优化模型的表示质量。实验结果表明，RoMA在对抗性鲁棒性和训练效率方面均优于其他方法，并且在非对抗性场景下保持了较高的准确率。AMG18数据集和RoMA训练模型的公开可用性，为恶意软件归属研究提供了宝贵的资源。

常用场景

经典使用场景

AMG18数据集主要被用于训练和评估恶意软件归属模型，特别是针对高级持续性威胁（APT）的恶意软件。该数据集包含了多种不同APT组的样本，并具有真实的类别不平衡特征，这使得它非常适合用于研究如何提高恶意软件归属模型的鲁棒性和准确性。此外，AMG18数据集还经常用于对抗性训练研究，旨在通过引入全局扰动和对抗性一致性正则化来生成更强大的对抗性样本，从而提高模型的鲁棒性。因此，AMG18数据集已成为恶意软件归属研究中的一个经典数据集，被广泛应用于相关研究中。

实际应用

AMG18数据集在实际应用中主要用于恶意软件归属研究。通过对恶意软件进行归属，可以更好地了解攻击者的意图和攻击方式，从而采取更有效的防御措施。AMG18数据集由于其多样性和真实性，可以有效地提高恶意软件归属模型的性能，从而提高网络安全防护能力。此外，AMG18数据集还可以用于开发新的恶意软件检测和防御技术，例如基于机器学习的恶意软件检测工具。因此，AMG18数据集在网络安全领域具有广泛的应用前景。

衍生相关工作

AMG18数据集的提出和发布，对恶意软件归属研究产生了重要的影响。基于AMG18数据集，研究人员提出了许多新的方法和模型，例如RoMA（Robust Malware Attribution via Byte-level Adversarial Training with Global Perturbations and Adversarial Consistency Regularization），该模型通过引入全局扰动和对抗性一致性正则化，成功地提高了恶意软件归属模型的鲁棒性和准确性。此外，AMG18数据集还促进了对抗性训练研究的发展，使得恶意软件归属模型能够更好地抵御对抗性攻击。因此，AMG18数据集不仅为恶意软件归属研究提供了重要的数据支持，还推动了相关研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集