five

AI-Pentest-Benchmark|渗透测试数据集|AI安全数据集

收藏
arXiv2024-10-26 更新2024-10-29 收录
渗透测试
AI安全
下载链接:
https://github.com/isamuisozaki/AI-Pentest-Benchmark
下载链接
链接失效反馈
资源简介:
AI-Pentest-Benchmark是由德雷塞尔大学的研究团队创建的一个用于评估大型语言模型(LLMs)在自动化渗透测试中性能的开放基准数据集。该数据集包含152个任务,涵盖了渗透测试的四个关键类别:侦察、利用、权限提升和通用技术。数据集的创建过程包括使用Vulnhub虚拟机进行基准测试,并通过严格的规则减少人为干预。该数据集旨在解决当前缺乏全面、开放的自动化渗透测试基准的问题,推动AI在网络安全领域的应用和发展。
提供机构:
德雷塞尔大学
创建时间:
2024-10-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
AI-Pentest-Benchmark数据集的构建遵循了PentestGPT的方法,但进行了四项显著的调整。首先,仅使用Vulnhub虚拟机进行基准测试,这些虚拟机免费且易于获取,提高了可重复性。其次,通过互联网获取三个公共演练来确定任务边界,而非依赖独立渗透测试人员的演练。第三,制定了明确的规则以最小化人为干预,特别是在使用GUI工具如BurpSuite和Wireshark时。最后,评估所有任务,而非在单个任务失败时停止评估,确保了全面性。
特点
AI-Pentest-Benchmark数据集的主要特点在于其全面性和开放性。它涵盖了渗透测试的四个关键类别:侦察、利用、权限提升和通用技术,提供了详尽的任务分布。此外,该数据集通过严格的规则最小化人为干预,确保了评估的客观性和可重复性。其开放性不仅体现在数据集的共享,还体现在其为未来研究提供了坚实的基础。
使用方法
使用AI-Pentest-Benchmark数据集时,研究人员可以评估大型语言模型(LLMs)在渗透测试中的表现。通过遵循数据集提供的规则和指南,可以系统地评估模型在不同任务和难度级别上的性能。数据集还提供了详细的任务类型和类别,帮助用户理解每个任务的背景和目标。此外,数据集的开放性允许研究人员进行进一步的实验和改进,推动自动化渗透测试领域的发展。
背景与挑战
背景概述
随着网络攻击对网络安全构成的威胁日益严重,渗透测试作为一种道德黑客手段,被广泛用于识别系统和网络中的漏洞。近年来,大型语言模型(LLMs)在多个领域展示了其潜力,包括网络安全。然而,目前缺乏一个全面、开放的端到端自动化渗透测试基准,以推动该领域的发展并评估这些模型在安全环境中的能力。为此,Drexel大学的Isamu Isozaki、Manil Shrestha、Edward Kim以及独立研究人员Rick Console共同推出了AI-Pentest-Benchmark数据集,旨在填补这一关键空白。该数据集通过评估包括GPT-4o和Llama 3.1-405B在内的LLMs,揭示了当前模型在完全自动化渗透测试中的局限性,并为进一步的研究奠定了基础。
当前挑战
AI-Pentest-Benchmark数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何通过LLMs实现完全自动化的渗透测试,包括枚举、利用和权限提升等关键步骤;二是构建过程中的挑战,如如何设计一个既全面又可重复的基准测试,以确保评估结果的可靠性和一致性。此外,数据集还面临如何最小化人类参与度、如何处理模型遗忘问题以及如何增强模型在复杂环境中的表现等具体问题。这些挑战不仅影响数据集的实际应用效果,也对其在推动AI辅助网络安全领域的进一步研究提出了更高的要求。
常用场景
经典使用场景
在网络安全领域,AI-Pentest-Benchmark数据集被广泛用于评估和提升大型语言模型(LLMs)在自动化渗透测试中的性能。该数据集通过模拟真实的渗透测试场景,帮助研究人员和实践者理解LLMs在识别系统漏洞、执行攻击和权限提升等方面的能力。通过对比不同模型的表现,如GPT-4o和Llama 3.1-405B,该数据集揭示了当前LLMs在自动化渗透测试中的潜力与局限性,为未来的改进提供了方向。
实际应用
在实际应用中,AI-Pentest-Benchmark数据集为网络安全专家提供了一个强大的工具,用于评估和优化自动化渗透测试工具。通过使用该数据集,组织可以更有效地识别和修复系统中的潜在漏洞,从而提升整体安全防护水平。此外,该数据集还可以作为培训工具,帮助网络安全从业者提升技能,理解和应对复杂的网络攻击。
衍生相关工作
基于AI-Pentest-Benchmark数据集,许多相关工作得以展开,包括对PentestGPT工具的改进研究,以及探索不同LLMs在渗透测试中的应用。这些工作不仅提升了现有工具的性能,还推动了自动化渗透测试领域的发展。例如,通过引入摘要注入、结构化待办列表和检索增强生成等技术,研究人员显著提高了LLMs在渗透测试任务中的表现,为未来的自动化安全评估奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

CHIRPS v2.0

CHIRPS v2.0是一个全球降水数据集,提供高分辨率的降水估计,结合了卫星观测和气象站数据。数据集覆盖全球,时间范围从1981年至今,空间分辨率为0.05度。

www.chc.ucsb.edu 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录