Refactored versions of five software security labs from SEED Labs
收藏arXiv2025-05-02 更新2025-05-06 收录
下载链接:
https://anonymous.4open.science/r/AEG-LLM-EAE8/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自SEED Labs的五个软件安全实验室的代码,这些代码被手动重构,以保留其漏洞,但消除了可能存在的偏见。数据集包含原始和混淆版本的两个集合,以评估大型语言模型在自动化漏洞利用生成(AEG)中的表现。数据集旨在帮助研究者评估LLMs在AEG任务中的合作性和技术熟练程度,并促进相关研究的发展。
This dataset encompasses code from five software security labs affiliated with SEED Labs, which has been manually refactored to preserve their inherent vulnerabilities while eliminating any potential biases. The dataset includes two collections of original and obfuscated code versions, designed to evaluate the performance of Large Language Models (LLMs) in Automated Exploit Generation (AEG). This dataset aims to assist researchers in assessing the cooperativeness and technical proficiency of LLMs in AEG tasks, and to promote the development of relevant research.
提供机构:
UNSW Sydney, Australia
创建时间:
2025-05-02
搜集汇总
数据集介绍

构建方式
该数据集基于SEED Labs的五个软件安全实验,通过手动重构源代码以消除潜在的训练数据偏差。重构过程保留了原始漏洞特性,同时对变量和函数名进行了系统化重命名(如varX和functionX),以降低语言模型对已知解决方案的记忆依赖。数据集包含原始版本和重构版本两个子集,为评估大语言模型在自动化漏洞利用生成(AEG)任务中的表现提供了客观基准。
使用方法
研究者可通过配套的LLM-based attacker框架进行系统性评估,该框架采用GPT-4o作为攻击引导模型,通过15轮迭代对话优化目标模型的漏洞利用代码生成。使用时应对比模型在原始版本与重构版本上的表现差异,重点关注错误类型分布(如NOP雪橇长度计算失误、系统调用地址错误等)。数据集特别适用于研究语言模型在代码符号理解、漏洞原理推理方面的能力边界,也为开发抗混淆的AEG技术提供了测试平台。
背景与挑战
背景概述
Refactored versions of five software security labs from SEED Labs数据集由UNSW Sydney和CSIRO Data61的研究团队于2025年创建,旨在评估大语言模型(LLMs)在自动化漏洞利用生成(AEG)中的表现。该数据集基于SEED Labs的五个软件安全实验,涵盖了缓冲区溢出、返回libc攻击、格式化字符串漏洞、竞争条件和脏COW漏洞等多种常见漏洞类型。研究人员通过重构代码变量和函数名称,创建了去偏版本的数据集,以减少LLMs因训练数据记忆带来的偏差。该数据集为研究LLMs在软件安全领域的应用提供了重要基准,推动了自动化漏洞利用生成技术的发展。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题挑战:自动化漏洞利用生成需要模型具备深厚的程序分析和漏洞利用知识,而现有LLMs在理解漏洞底层机制和生成有效利用代码方面仍存在不足,如无法正确处理NOP雪橇长度或返回地址顺序等关键细节;2) 构建过程挑战:为确保评估的客观性,研究人员需手动重构原始实验代码,同时保持漏洞特性不变,这一过程需要精确的漏洞知识和高度的代码重构技巧。此外,不同LLMs对漏洞利用请求的响应差异显著,部分模型因内部对齐机制会拒绝此类请求,增加了系统性评估的复杂度。
常用场景
经典使用场景
在软件安全研究领域,该数据集被广泛应用于评估大型语言模型(LLMs)在自动化漏洞利用生成(AEG)任务中的表现。通过重构五个SEED Labs的软件安全实验,该数据集为研究者提供了一个标准化的测试平台,用于衡量不同LLMs在生成有效漏洞利用代码方面的能力。数据集涵盖了多种常见漏洞类型,如缓冲区溢出、返回libc攻击、格式化字符串漏洞等,为研究LLMs在复杂安全场景下的表现提供了丰富素材。
解决学术问题
该数据集有效解决了LLMs在自动化漏洞利用生成领域缺乏系统性评估的学术空白。通过精心设计的重构实验,研究者能够排除LLMs可能存在的训练数据记忆偏差,准确评估模型真实的漏洞利用生成能力。数据集不仅验证了GPT-4等模型在AEG任务中的技术潜力,也揭示了当前LLMs在理解漏洞底层机制方面的局限性,为改进模型的安全分析能力指明了方向。
实际应用
在实际应用中,该数据集为安全研究人员提供了评估LLMs安全风险的基准工具。安全团队可利用该数据集测试商用LLMs生成漏洞利用代码的难易程度,从而制定相应的防御策略。同时,数据集支持的红队演练场景能帮助组织评估其系统对AI驱动攻击的抵抗力,推动开发更健壮的安全防护机制。
数据集最近研究
最新研究方向
近年来,随着大型语言模型(LLMs)在代码相关任务中的卓越表现,其在自动化漏洞利用生成(AEG)领域的应用引起了广泛关注。本研究首次系统评估了LLMs在AEG中的效果,通过重构五个软件安全实验室的数据集,有效缓解了数据集偏差问题。实验结果表明,GPT-4和GPT-4o在漏洞利用生成任务中表现出较高的合作性,但其实际威胁仍有限,未能成功生成针对重构代码的漏洞利用。尽管如此,GPT-4o的优异表现显示出LLMs在推动AEG技术发展方面的巨大潜力。这一研究方向不仅为软件安全领域提供了新的技术路径,也为未来LLMs在安全测试和漏洞挖掘中的应用奠定了基础。
相关研究论文
- 1Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit GenerationUNSW Sydney, Australia · 2025年
以上内容由遇见数据集搜集并总结生成



