METAMORPHASM DATASET (MAD)

Name: METAMORPHASM DATASET (MAD)
Creator: 马里兰大学巴尔的摩分校
Published: 2024-12-21 02:31:24
License: 暂无描述

arXiv2024-12-21 更新2024-12-24 收录

下载链接：

http://arxiv.org/abs/2412.16135v1

下载链接

链接失效反馈

官方服务：

资源简介：

METAMORPHASM DATASET (MAD) 是由马里兰大学巴尔的摩分校的研究团队创建的一个专门用于测试大型语言模型（LLMs）在生成和分析混淆汇编代码能力的基准数据集。该数据集包含328,200个混淆汇编代码样本，涵盖三种混淆技术：死代码插入、寄存器替换和控制流变化。数据集的创建过程包括从Windows动态链接库和可执行文件中提取和反汇编源代码，经过预处理、混淆处理和人工验证，最终形成一个统一的Excel格式数据集。该数据集主要用于研究LLMs在代码混淆领域的应用，旨在提高反病毒引擎的检测能力，并帮助研究人员开发针对代码混淆的解决方案。

METAMORPHASM DATASET (MAD) is a benchmark dataset developed by the research team at the University of Maryland, Baltimore County, specifically designed to test the capabilities of Large Language Models (LLMs) in generating and analyzing obfuscated assembly code. This dataset contains 328,200 obfuscated assembly code samples, covering three obfuscation techniques: dead code insertion, register substitution, and control flow modification. The dataset construction process involves extracting and disassembling source code from Windows dynamic-link libraries (DLLs) and executable files, followed by preprocessing, obfuscation, and manual validation, ultimately resulting in a unified Excel-formatted dataset. This dataset is primarily used for researching the applications of LLMs in the field of code obfuscation, with the goal of improving the detection capabilities of antivirus engines and aiding researchers in developing solutions for code obfuscation.

提供机构：

马里兰大学巴尔的摩分校

创建时间：

2024-12-21

搜集汇总

数据集介绍

构建方式

METAMORPHASM DATASET (MAD) 的构建过程分为四个步骤。首先，从微软提供的Windows动态链接库和可执行文件中提取源代码，并使用开源工具进行反编译和预处理，去除无关的数据部分。接着，将这些汇编代码片段进行清洗，去除与本地机器相关的指令，确保代码的通用性。随后，通过Python脚本对这些片段进行混淆处理，生成三种不同的混淆技术数据集：死代码插入、寄存器替换和控制流变化。最后，由具有二十年经验的专家对混淆后的代码进行手动验证，确保其正确性和功能完整性，最终以Excel格式打包，便于模型训练。

特点

MAD 数据集的显著特点在于其专注于三种主要的混淆技术：死代码插入、寄存器替换和控制流变化。每种技术包含109,400个样本，每个样本由原始代码和混淆后的代码组成。数据集中的每个代码片段仅包含二十行汇编代码，确保了数据集的简洁性和实验的可控性。此外，混淆后的代码在保持原始功能不变的前提下，通过改变代码结构增加了其复杂性，为研究大语言模型在代码混淆中的表现提供了独特的资源。

使用方法

MAD 数据集主要用于评估大语言模型（LLMs）在生成和分析混淆代码方面的能力。研究者可以通过该数据集训练和测试各种LLMs，如GPT-3.5/4、CodeLlama等，评估其在不同混淆技术下的表现。数据集支持零样本提示（zero-shot prompting）和少样本提示（few-shot prompting），研究者可以根据需要选择不同的提示方式进行实验。此外，MAD 数据集还可用于开发和测试新的反混淆技术，帮助提升现有检测技术的鲁棒性。

背景与挑战

背景概述

METAMORPHASM DATASET (MAD) 是由Seyedreza Mohseni等人于2024年开发的一个专门用于测试大型语言模型（LLMs）生成混淆汇编代码能力的基准数据集。该数据集包含328,200个混淆汇编代码样本，涵盖三种主要的混淆技术：死代码插入、寄存器替换和控制流变化。MAD的创建旨在评估LLMs在生成混淆代码方面的潜力，并探讨其对反病毒引擎的潜在威胁。该数据集的发布为研究人员提供了一个独特的资源，用于更详细地分析混淆策略，并评估当前检测技术的韧性。

当前挑战

MAD数据集面临的挑战主要集中在两个方面：首先，构建过程中需要处理大量的汇编代码样本，并对其进行预处理和混淆，这一过程涉及复杂的脚本设计和人工验证，确保混淆后的代码保持原始功能的同时，结构发生变化。其次，评估LLMs生成混淆代码的能力时，需要考虑混淆技术的多样性和复杂性，确保生成的代码不仅在结构上与原始代码不同，还能有效规避现有的检测技术。此外，如何在保持代码功能不变的前提下，最大化混淆效果，也是该数据集面临的重要挑战。

常用场景

经典使用场景

METAMORPHASM DATASET (MAD) 主要用于评估大型语言模型（LLMs）在生成和分析混淆汇编代码方面的能力。该数据集包含了328,200个经过混淆处理的汇编代码样本，涵盖了三种主要的混淆技术：死代码插入、寄存器替换和控制流变化。通过使用MAD，研究人员可以系统地测试和比较不同LLMs在生成混淆代码方面的性能，从而为开发更有效的反病毒引擎和防御机制提供基础。

衍生相关工作

MAD 数据集的发布激发了大量相关研究工作，尤其是在恶意软件检测和防御领域。许多研究者基于MAD开发了新的混淆技术和检测方法，进一步推动了LLMs在代码生成和分析方面的应用。例如，一些研究团队利用MAD数据集训练和评估了多种LLMs在混淆代码生成和检测方面的性能，探索了不同混淆技术对模型性能的影响。此外，MAD还为恶意软件数据集的构建和评估提供了新的思路，促进了数据增强和多样性研究的发展。

数据集最近研究