five

AUTOPENBENCH|网络安全数据集|渗透测试数据集

收藏
arXiv2024-10-04 更新2024-10-08 收录
网络安全
渗透测试
下载链接:
https://github.com/lucagioacchini/auto-pen-bench
下载链接
链接失效反馈
资源简介:
AUTOPENBENCH是由都灵理工大学创建的一个开放基准数据集,用于评估生成代理在自动化渗透测试中的性能。该数据集包含33个任务,分为基础(in-vitro)和真实世界(real-world)两个难度级别,涵盖了访问控制、网络安全、Web安全和密码学等多个领域。数据集的创建过程基于Docker容器,模拟了多种网络安全漏洞,旨在通过详细的任务里程碑评估代理的渗透测试能力。AUTOPENBENCH的应用领域主要集中在网络安全和渗透测试,旨在解决自动化渗透测试代理的评估和比较问题。
提供机构:
都灵理工大学
创建时间:
2024-10-04
原始信息汇总

AutoPenBench 数据集概述

数据集内容

  • 安装指南:包含安装和设置环境的步骤。
  • 测试与评估代理:提供如何测试和评估代理的示例。
  • 开发新机器:包含创建和定制新脆弱机器的步骤。
  • 可用工具:列出与渗透测试环境交互的工具(JSON 模式)。

安装指南

  1. 确保本地机器已安装 cmake
  2. 创建并激活虚拟环境。
  3. 安装依赖并设置机器。
  4. 测试基准的单个实例。

测试与评估代理

  • 参考示例文件了解如何测试和评估代理。
  • 提供使用 instructor 库实现的代理示例,支持结构化输出。
  • 建议为不支持结构化输出的代理设计适配器。

开发新机器

  1. 初始化新机器:使用 make create 命令创建新机器。
  2. 定制机器:
    • 编写 Dockerfile 和相关文件。
    • 编写 CTF 标志。
    • 定制 docker-compose 设置。
    • 更新 data/games.json 文件。
    • 编写解决任务的命令序列。
    • 编写命令里程碑和阶段里程碑映射。
  3. 测试新机器:使用 make test 命令测试新机器。

可用工具

  • ExecuteBash(machine_ipaddr: str, cmd: str):在指定目标机器上执行 bash 命令。
  • SSHConnect(ssh_ipaddr: str, ssh_port: str, ssh_username: str, ssh_password: str):从 Kali 工作站建立 SSH 连接。
  • WriteFile(content: str, file_name: str):在 Kali 机器上写入可执行文件。
  • FinalAnswer(flag: str):代理提供找到的 CTF 标志。
AI搜集汇总
数据集介绍
main_image_url
构建方式
AUTOPENBENCH 数据集构建于 AgentQuest 框架之上,该框架支持基准和代理架构的设计。数据集包含 33 个渗透测试任务,分为两个难度级别:体外任务和真实世界任务。每个任务代表一个易受攻击的系统,代理需要对其进行攻击。任务的难度逐渐增加,涵盖了从基础的网络安全知识到复杂的真实世界场景。为了评估代理的性能,定义了通用和特定的里程碑,允许以标准化方式比较结果,并理解被测代理的局限性。
特点
AUTOPENBENCH 数据集的特点在于其全面性和灵活性。它包含了 33 个任务,涵盖了从基础的体外渗透测试场景到复杂的真实世界案例。任务设计旨在评估代理在不同难度和环境下的表现,包括网络发现、服务识别、漏洞检测和利用等。此外,数据集提供了详细的评估信息,帮助理解代理在任务中的进展。通过公开源代码和使用说明,AUTOPENBENCH 鼓励研究社区的进一步扩展和研究。
使用方法
使用 AUTOPENBENCH 数据集时,研究人员和开发者可以通过提供的源代码和使用说明,自行扩展和定制任务。数据集支持两种代理架构的评估:完全自主代理和半自主代理,后者支持人机交互。通过定义的里程碑,可以客观地测量和理解代理的进展。数据集还允许比较不同大型语言模型(如 GPT-4o、Gemini Flash 或 OpenAI o1)对代理完成任务能力的影响。通过这些方法,AUTOPENBENCH 提供了一个标准和灵活的框架,用于在共同基础上比较渗透测试代理。
背景与挑战
背景概述
AUTOPENBENCH数据集由Luca Gioacchini、Idilio Drago、Giuseppe Siracusano等研究人员于2024年提出,旨在为生成式AI代理在自动化渗透测试中的评估提供一个全面且标准的框架。该数据集的核心研究问题是如何在复杂且多变的渗透测试任务中,通过生成式AI代理实现自动化攻击模拟。AUTOPENBENCH的引入填补了现有方法在评估、比较和开发生成式AI代理方面的空白,对网络安全领域具有重要影响力。
当前挑战
AUTOPENBENCH数据集面临的挑战主要包括两个方面:一是解决渗透测试领域复杂性和多样性带来的挑战,生成式AI代理需要具备多步骤规划和决策能力;二是构建过程中遇到的挑战,如如何设计一个既包含简单场景又涵盖真实世界复杂情况的全面框架。此外,评估生成式AI代理在不同任务中的表现和局限性也是一个重要挑战。
常用场景
经典使用场景
AUTOPENBENCH数据集在自动化渗透测试领域中扮演着至关重要的角色。其经典使用场景包括评估生成代理在模拟网络攻击中的表现,通过提供33个不同难度的任务,涵盖从简单的实验室环境到复杂的真实世界场景。这些任务要求代理识别并利用系统中的漏洞,从而测试其在自动化渗透测试中的有效性和可靠性。
实际应用
在实际应用中,AUTOPENBENCH数据集被广泛用于开发和测试自动化渗透测试工具。网络安全专家利用该数据集来训练和验证生成代理,以提高其在真实网络环境中的攻击模拟能力。此外,该数据集还支持网络安全产品的开发和优化,帮助企业提升其安全防御系统的有效性。
衍生相关工作
AUTOPENBENCH数据集的发布催生了一系列相关研究工作。例如,基于该数据集的研究已经开发出多种生成代理架构,包括完全自主和半自主代理,这些代理在自动化渗透测试中展示了不同的性能和局限性。此外,研究者还利用该数据集探讨了不同大型语言模型(如GPT-4o、Gemini Flash和OpenAI o1)对代理任务完成能力的影响,进一步推动了生成代理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2024)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2024年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2024)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录

PU Dataset

德国帕德博恩大学(PU)轴承故障诊断数据集提供了丰富的轴承故障信号数据,包括内圈、外圈和滚动体故障等多种类型的轴承故障。与其他数据集相比,PU数据集的特色在于包含了大量的电机驱动系统故障数据,为轴承故障诊断研究提供了一个全面的实验平台。

github 收录