PentestBenchmark
收藏arXiv2024-10-23 更新2024-10-24 收录
下载链接:
https://github.com/anonyippi/PentestBenchmarkPaper
下载链接
链接失效反馈官方服务:
资源简介:
PentestBenchmark数据集由德雷塞尔大学的研究团队创建,旨在评估大型语言模型(LLMs)在自动化渗透测试中的性能。该数据集包含152个渗透测试任务,涵盖了从侦察、利用到权限提升等多个类别。数据集的创建过程包括使用Vulnhub虚拟机进行任务边界定义和规则制定,以减少人为干预。PentestBenchmark数据集的应用领域主要集中在网络安全评估和自动化渗透测试,旨在通过标准化评估推动AI在网络安全领域的进步。
The PentestBenchmark dataset was developed by a research team at Drexel University, with the goal of evaluating the performance of Large Language Models (LLMs) in automated penetration testing. This dataset comprises 152 penetration testing tasks spanning multiple categories including reconnaissance, exploitation, and privilege escalation. During its creation, task boundaries were defined and rules were formulated using Vulnhub virtual machines to minimize human intervention. The primary application areas of the PentestBenchmark dataset are network security assessment and automated penetration testing, and it aims to advance the progress of AI in the cybersecurity field through standardized evaluations.
提供机构:
德雷塞尔大学
创建时间:
2024-10-23
原始信息汇总
Pentesting Benchmark 数据集概述
数据集名称
Pentesting Benchmark
数据集文件
- 文件名:Pentest Benchmark_Anonymized.xlsx
数据集用途
用于双盲评审过程。
搜集汇总
数据集介绍

构建方式
PentestBenchmark数据集的构建遵循了PentestGPT的方法,但进行了四项显著的调整。首先,仅使用Vulnhub盒子进行基准测试,这些盒子是免费的虚拟机,适用于可重复的基准测试。其次,通过互联网找到三个公开的演练,并在本地运行以确认步骤的有效性,而不是让三个渗透测试人员独立运行盒子并制作演练。第三,制定了明确的规则以最小化人为干预,例如限制每步最多五次尝试,并明确规定在访问网站时应向模型提供完整的HTML。第四,评估所有任务,而不是在单个任务失败时停止评估。
特点
PentestBenchmark数据集的特点在于其全面性和可重复性。通过使用Vulnhub盒子,数据集确保了低成本和高可重复性。此外,明确的规则和限制条件减少了人为干预,使得评估过程更加客观和一致。数据集还涵盖了渗透测试的各个方面,包括侦察、利用、权限提升和一般技术,提供了对LLM在网络安全应用中性能的全面评估。
使用方法
PentestBenchmark数据集的使用方法包括对LLM在渗透测试任务中的性能进行评估。研究人员可以使用该数据集来测试和比较不同LLM在渗透测试中的表现,特别是GPT-4o和Llama 3.1-405B。通过遵循数据集中定义的规则和步骤,研究人员可以进行可重复的实验,评估LLM在侦察、利用、权限提升等不同任务中的成功率。此外,数据集还支持进行消融研究,以分析和改进PentestGPT工具的性能。
背景与挑战
背景概述
随着网络攻击对网络安全构成的威胁日益严重,每年造成的损失高达数十亿美元,渗透测试作为一种道德黑客手段,被广泛用于识别系统和网络中的漏洞。近年来,大型语言模型(LLMs)在多个领域,包括网络安全领域,展示了其潜力。然而,目前缺乏一个全面、开放的端到端自动化渗透测试基准,以推动这一领域的进步并评估这些模型在安全环境中的能力。PentestBenchmark数据集由Drexel University的研究团队创建,旨在填补这一关键空白。该数据集通过评估包括GPT-4o和Llama 3.1-405B在内的LLMs,揭示了当前模型在完全自动化渗透测试中的局限性,并为未来研究奠定了基础。
当前挑战
PentestBenchmark数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何通过LLMs实现完全自动化的渗透测试,包括枚举、利用和权限提升等关键环节。二是构建过程中遇到的挑战,如如何在保持数据集开放性和可重复性的同时,最小化人为干预,确保评估的客观性和准确性。此外,数据集还需应对模型遗忘信息、任务规划中的幻觉问题,以及在复杂场景中模型的性能下降等问题。
常用场景
经典使用场景
PentestBenchmark数据集在自动化渗透测试领域中扮演着至关重要的角色。该数据集通过评估大型语言模型(LLMs)在渗透测试任务中的表现,为研究人员提供了一个标准化的评估平台。其经典使用场景包括对GPT-4o和Llama 3.1-405B等模型的性能进行基准测试,特别是在信息收集、漏洞利用和权限提升等关键任务中的表现。通过这种方式,PentestBenchmark数据集推动了LLMs在网络安全领域的应用研究,促进了自动化渗透测试工具的发展。
解决学术问题
PentestBenchmark数据集解决了当前缺乏全面、公开的自动化渗透测试基准的问题。在学术研究中,该数据集为评估和比较不同LLMs在渗透测试任务中的能力提供了统一的标准,填补了这一领域的空白。通过揭示LLMs在渗透测试各个阶段(如枚举、利用和权限提升)中的挑战,PentestBenchmark数据集为未来的研究奠定了基础,有助于推动AI辅助网络安全技术的发展。
衍生相关工作
PentestBenchmark数据集的发布催生了一系列相关研究工作。例如,研究人员基于该数据集进行了多种模型的性能比较和改进研究,提出了诸如摘要注入、结构化待办列表和检索增强生成等技术,以提升LLMs在渗透测试任务中的表现。此外,该数据集还激发了对自动化渗透测试中人类角色和AI角色平衡的研究,推动了AI在网络安全领域的深入应用和发展。
以上内容由遇见数据集搜集并总结生成



