TermiBench

Name: TermiBench
Creator: 复旦大学
Published: 2025-09-11 15:30:44
License: 暂无描述

arXiv2025-09-11 更新2025-11-24 收录

下载链接：

https://zenodo.org/records/17479793

下载链接

链接失效反馈

官方服务：

资源简介：

TermiBench是一个面向代理的渗透测试基准，旨在真实世界中评估自动化渗透测试代理的能力。它包含510个主机，跨越25个服务和30个CVE，要求代理在真实环境中进行自主侦察，区分良性服务和可利用的服务，并执行稳健的漏洞利用。TermiBench的设计原则包括真实世界保真度、盲评估和系统服务配置。数据集创建过程包括收集2015年至2025年间的CVE，选择可远程代码执行的CVE，并配置主机以模拟真实世界的复杂性。TermiBench的应用领域是网络安全，旨在解决传统渗透测试方法的高成本、耗时和依赖专家劳动力的问题。

TermiBench is an agent-oriented penetration testing benchmark designed to evaluate the capabilities of automated penetration testing agents in real-world scenarios. It consists of 510 hosts spanning 25 services and 30 CVE entries, requiring agents to conduct autonomous reconnaissance in real-world environments, distinguish between benign services and exploitable services, and perform robust vulnerability exploits. The design principles of TermiBench include real-world fidelity, blind evaluation, and systematic service configuration. The dataset creation process involves collecting CVEs from 2015 to 2025, selecting those with remote code execution (RCE) capabilities, and configuring hosts to simulate real-world complexity. The application domain of TermiBench is cybersecurity, and it aims to address the issues of high cost, time consumption, and reliance on expert labor associated with traditional penetration testing methods.

提供机构：

复旦大学

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

在网络安全评估领域，TermiBench通过系统化整合真实漏洞数据构建了首个面向自动化渗透测试的基准数据集。该数据集基于2015至2025年间公开的30个具有远程代码执行能力的CVE漏洞，覆盖25种常见网络服务，通过精心设计的实验环境配置了510个独立主机实例。每个主机实例采用分层架构设计，在基础层配置单一漏洞服务的基础上，逐步叠加1至7个良性背景服务以模拟真实网络环境中的服务噪声，这种多层级复杂度设计使得数据集能够全面评估智能体在混杂服务环境中识别真实攻击面的能力。

使用方法

该数据集的使用遵循标准化的渗透测试评估流程。研究人员首先通过提供的子网信息启动自动化测试智能体，智能体需自主执行网络扫描以发现活跃主机，随后进行服务指纹识别和漏洞探测。在识别出潜在攻击目标后，智能体需要从混杂的良性服务中准确辨别出存在漏洞的服务，并选择合适的攻击载荷进行利用尝试。数据集内置了自动化的结果验证机制，能够实时监测shell获取状态并记录攻击路径，最终生成包含成功率和攻击效率的量化评估报告。这种端到端的评估方法为比较不同渗透测试智能体的实际效能提供了可靠依据。

背景与挑战

背景概述

TermiBench由复旦大学研究团队于2025年推出，是首个面向真实渗透测试场景的智能体评估基准。该数据集针对传统渗透测试依赖人工、成本高昂且自动化评估不足的痛点，通过构建包含510个主机实例、覆盖25种服务与30个CVE漏洞的异构环境，将评估目标从CTF式的标志获取转向系统控制权获取。其创新性在于模拟真实网络的多服务混杂场景，要求智能体在仅知晓子网范围的前提下完成自主侦察、漏洞鉴别与利用全流程，为AI驱动的渗透测试研究提供了更贴近实际的评估框架。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，传统CTF基准存在目标偏离（标志获取而非系统控制）、先验知识过度（预设漏洞路径）与环境简化（单服务配置）三大缺陷，难以反映真实攻防对抗中动态侦察与多路径渗透的复杂性；在构建过程中，需平衡真实性与可复现性，包括从十年间公开漏洞中筛选具备远程代码执行能力的CVE，设计多层级良性服务噪声干扰机制，并建立自动化漏洞环境构建流水线以支撑大规模实验验证。

常用场景

经典使用场景

在网络安全研究领域，TermiBench作为首个面向真实场景的渗透测试基准数据集，其经典应用聚焦于评估自主智能体在复杂多服务环境中的系统控制能力。该数据集通过模拟510个包含25种服务和30个CVE漏洞的主机节点，构建了从单服务到七冗余服务的多层次测试环境，有效支撑了渗透测试智能体在自主侦察、漏洞鉴别和攻击执行等关键环节的效能验证。

解决学术问题

TermiBench解决了传统CTF式评估与真实渗透测试场景脱节的学术困境。通过将评估目标从标志性字符串获取转向系统控制权获取，并消除预设攻击路径等先验知识，该数据集为衡量AI智能体在不确定性环境中的动态推理能力提供了标准化框架，推动了自动化渗透测试从理论模拟向实战应用的范式转变。

实际应用

该数据集在工业界具有显著应用价值，为网络安全企业提供了可复现的测试平台。通过集成真实漏洞与良性服务噪声，企业可系统性验证自动化渗透工具的鲁棒性，优化安全防护策略。其多服务架构设计还能辅助红队训练，提升在混合服务环境中识别真实攻击面的实战能力。

数据集最近研究