Refactored versions of five software security labs from SEED Labs

Name: Refactored versions of five software security labs from SEED Labs
Creator: UNSW Sydney, Australia
Published: 2025-05-02 15:15:22
License: 暂无描述

arXiv2025-05-02 更新2025-05-06 收录

下载链接：

https://anonymous.4open.science/r/AEG-LLM-EAE8/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自SEED Labs的五个软件安全实验室的代码，这些代码被手动重构，以保留其漏洞，但消除了可能存在的偏见。数据集包含原始和混淆版本的两个集合，以评估大型语言模型在自动化漏洞利用生成（AEG）中的表现。数据集旨在帮助研究者评估LLMs在AEG任务中的合作性和技术熟练程度，并促进相关研究的发展。

This dataset encompasses code from five software security labs affiliated with SEED Labs, which has been manually refactored to preserve their inherent vulnerabilities while eliminating any potential biases. The dataset includes two collections of original and obfuscated code versions, designed to evaluate the performance of Large Language Models (LLMs) in Automated Exploit Generation (AEG). This dataset aims to assist researchers in assessing the cooperativeness and technical proficiency of LLMs in AEG tasks, and to promote the development of relevant research.

提供机构：

UNSW Sydney, Australia

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

该数据集基于SEED Labs的五个软件安全实验，通过手动重构源代码以消除潜在的训练数据偏差。重构过程保留了原始漏洞特性，同时对变量和函数名进行了系统化重命名（如varX和functionX），以降低语言模型对已知解决方案的记忆依赖。数据集包含原始版本和重构版本两个子集，为评估大语言模型在自动化漏洞利用生成（AEG）任务中的表现提供了客观基准。

使用方法

研究者可通过配套的LLM-based attacker框架进行系统性评估，该框架采用GPT-4o作为攻击引导模型，通过15轮迭代对话优化目标模型的漏洞利用代码生成。使用时应对比模型在原始版本与重构版本上的表现差异，重点关注错误类型分布（如NOP雪橇长度计算失误、系统调用地址错误等）。数据集特别适用于研究语言模型在代码符号理解、漏洞原理推理方面的能力边界，也为开发抗混淆的AEG技术提供了测试平台。

背景与挑战

背景概述

Refactored versions of five software security labs from SEED Labs数据集由UNSW Sydney和CSIRO Data61的研究团队于2025年创建，旨在评估大语言模型（LLMs）在自动化漏洞利用生成（AEG）中的表现。该数据集基于SEED Labs的五个软件安全实验，涵盖了缓冲区溢出、返回libc攻击、格式化字符串漏洞、竞争条件和脏COW漏洞等多种常见漏洞类型。研究人员通过重构代码变量和函数名称，创建了去偏版本的数据集，以减少LLMs因训练数据记忆带来的偏差。该数据集为研究LLMs在软件安全领域的应用提供了重要基准，推动了自动化漏洞利用生成技术的发展。

当前挑战

该数据集面临的主要挑战包括：1) 领域问题挑战：自动化漏洞利用生成需要模型具备深厚的程序分析和漏洞利用知识，而现有LLMs在理解漏洞底层机制和生成有效利用代码方面仍存在不足，如无法正确处理NOP雪橇长度或返回地址顺序等关键细节；2) 构建过程挑战：为确保评估的客观性，研究人员需手动重构原始实验代码，同时保持漏洞特性不变，这一过程需要精确的漏洞知识和高度的代码重构技巧。此外，不同LLMs对漏洞利用请求的响应差异显著，部分模型因内部对齐机制会拒绝此类请求，增加了系统性评估的复杂度。

常用场景

经典使用场景

在软件安全研究领域，该数据集被广泛应用于评估大型语言模型（LLMs）在自动化漏洞利用生成（AEG）任务中的表现。通过重构五个SEED Labs的软件安全实验，该数据集为研究者提供了一个标准化的测试平台，用于衡量不同LLMs在生成有效漏洞利用代码方面的能力。数据集涵盖了多种常见漏洞类型，如缓冲区溢出、返回libc攻击、格式化字符串漏洞等，为研究LLMs在复杂安全场景下的表现提供了丰富素材。

解决学术问题

该数据集有效解决了LLMs在自动化漏洞利用生成领域缺乏系统性评估的学术空白。通过精心设计的重构实验，研究者能够排除LLMs可能存在的训练数据记忆偏差，准确评估模型真实的漏洞利用生成能力。数据集不仅验证了GPT-4等模型在AEG任务中的技术潜力，也揭示了当前LLMs在理解漏洞底层机制方面的局限性，为改进模型的安全分析能力指明了方向。

实际应用

在实际应用中，该数据集为安全研究人员提供了评估LLMs安全风险的基准工具。安全团队可利用该数据集测试商用LLMs生成漏洞利用代码的难易程度，从而制定相应的防御策略。同时，数据集支持的红队演练场景能帮助组织评估其系统对AI驱动攻击的抵抗力，推动开发更健壮的安全防护机制。

数据集最近研究