Shellcode IA32

Name: Shellcode IA32
Creator: 那不勒斯大学费德里科二世
Published: 2022-03-18 18:28:57
License: 暂无描述

arXiv2022-03-18 更新2024-06-21 收录

下载链接：

https://github.com/dessertlab/Shellcode_IA32

下载链接

链接失效反馈

官方服务：

资源简介：

Shellcode IA32数据集由那不勒斯大学费德里科二世和美国北卡罗来纳大学夏洛特分校合作创建，包含3200条IA-32架构的汇编语言指令及其自然语言描述。数据集内容主要来源于公开的安全漏洞利用，特别是Linux操作系统下的汇编程序。创建过程中，研究者收集了2000至2020年间来自Shell-storm和Exploit Database的汇编程序，并增加了Netwide Assembler（NASM）编写的Linux汇编指令。该数据集旨在通过神经机器翻译技术，自动生成用于软件漏洞利用的shellcode，以推动自动化代码生成技术的发展，特别是在安全领域的应用。

The Shellcode IA32 Dataset was collaboratively constructed by the University of Naples Federico II and the University of North Carolina at Charlotte. It contains 3200 IA-32 architecture assembly language instructions along with their corresponding natural language descriptions. The dataset's content is primarily sourced from publicly disclosed security exploit codes, especially assembly programs targeting the Linux operating system. During the dataset construction process, researchers collected assembly programs from Shell-storm and the Exploit Database between 2000 and 2020, and additionally added Linux assembly instructions written in Netwide Assembler (NASM). This dataset is designed to automatically generate shellcodes for software vulnerability exploits using neural machine translation technology, thereby advancing the development of automated code generation technologies, particularly their applications in the cybersecurity domain.

提供机构：

那不勒斯大学费德里科二世

创建时间：

2021-04-27

搜集汇总

数据集介绍

构建方式

在网络安全与软件漏洞研究领域，自动生成有效载荷代码的需求日益增长。Shellcode IA32数据集的构建过程体现了对真实世界安全场景的深入考量。该数据集通过从公开可用的安全漏洞库如shell-storm和Exploit Database中，系统性地收集了2000年至2020年间的IA-32架构汇编指令，共计3200条示例。这些指令均采用Netwide Assembler（NASM）语法编写，并专注于Linux操作系统环境。为了确保自然语言描述的多样性与真实性，数据集整合了来自不同作者独立编写的英文注释，并纳入了约10%来自权威教程和书籍的汇编程序示例，以涵盖专家级描述风格。特别值得注意的是，数据集中包含了约16%的多行代码片段，这些片段将逻辑上紧密关联的多条汇编指令与其对应的复合意图描述配对，突破了传统单行映射的局限，更贴合实际shellcode的生成需求。

使用方法

该数据集主要用于训练和评估从自然语言意图自动生成IA-32汇编shellcode的模型，可视为一个机器翻译任务。典型的使用流程遵循标准的数据驱动方法：首先将数据集按80/10/10的比例随机划分为训练集、开发集和测试集，其中测试集包含约13.75%的多行片段以评估模型处理复杂意图的能力。研究者通常采用编码器-解码器架构，例如配备注意力机制的双向LSTM，将嵌入后的自然语言序列编码为隐藏状态向量，再解码生成目标汇编指令序列。训练过程中可使用Adam优化器，并通过束搜索进行推理。性能评估主要依赖BLEU分数（通常计算1至4元文法）和精确匹配准确率（ACC）两项指标。数据集支持对模型进行超参数调优实验，例如探究网络层数与维度对生成效果的影响。通过定性分析模型输出，可以深入理解其成功案例与典型错误，例如对隐式知识的缺失或条件跳转指令的误判，从而推动更鲁棒生成方法的研究。

背景与挑战

背景概述

Shellcode_IA32数据集由那不勒斯费德里科二世大学与北卡罗来纳大学夏洛特分校的研究团队于2021年联合构建，旨在推动基于自然语言的自动化漏洞利用代码生成研究。该数据集聚焦于网络安全领域，核心研究问题在于如何将自然语言描述转换为IA-32架构下的汇编指令序列，从而自动生成用于软件漏洞利用的Shellcode。作为首个专门针对汇编语言与自然语言对齐的数据集，Shellcode_IA32填补了自动化攻击代码生成领域的数据空白，为神经机器翻译技术在安全研究中的应用提供了关键基础。

当前挑战

该数据集旨在解决自动化Shellcode生成中的核心挑战：如何准确理解自然语言中隐含的底层操作语义，并将其映射为精确的汇编指令序列。构建过程中的主要困难包括：汇编指令与自然语言描述之间存在显著语义鸿沟，需要处理多行代码片段与单一意图的复杂对应关系；同时，数据收集面临来源有限性与质量参差不齐的困境，因为公开的Shellcode样本往往缺乏规范的自然语言注释，且需从历时二十年的安全漏洞资料中筛选有效样本，并保持指令架构与操作系统环境的一致性。

常用场景

经典使用场景

在网络安全与软件漏洞研究领域，Shellcode IA32数据集为自动生成shellcode提供了关键资源。该数据集的核心应用场景在于训练神经机器翻译模型，将自然语言描述转化为IA-32架构的汇编指令序列。研究人员利用这一数据集构建基线模型，探索从高级语义意图到低级机器代码的映射机制，为自动化漏洞利用生成奠定基础。

解决学术问题

该数据集主要解决了自动代码生成领域中的特定难题，即如何从自然语言注释直接生成功能完整的shellcode汇编程序。它填补了安全研究中缺乏高质量、结构化自然语言-汇编配对数据的空白，使得基于数据驱动的机器学习方法能够应用于漏洞利用开发。其意义在于将传统手工编写shellcode的过程转化为可自动化、可评估的学术任务，推动了智能安全工具的发展。

实际应用

在实际应用中，Shellcode IA32数据集被安全分析师和渗透测试人员用于开发自动化漏洞利用原型。通过将自然语言攻击意图转换为可执行的shellcode，该数据集支持快速构建概念验证攻击，帮助识别和修补软件安全弱点。此外，它在防御性安全研究中用于模拟攻击行为，增强入侵检测系统的能力，从而提升整体网络防护水平。

数据集最近研究