TermiBench
收藏arXiv2025-09-16 更新2025-09-17 收录
下载链接:
https://arxiv.org/abs/2509.09207v2
下载链接
链接失效反馈官方服务:
资源简介:
TermiBench是一个针对真实世界、细粒度和面向代理的渗透测试评估基准。它包含510个主机,跨越25个不同的服务和30个CVE,涵盖了2015年至2025年间的漏洞。每个主机配置了多达七个无漏洞的服务和一个在2015年至2025年间的一个漏洞服务。TermiBench旨在更真实地模拟现实世界的渗透测试场景,要求代理在没有预先信息的情况下自主进行侦察,并能够区分可利用和不可利用的服务。该基准为评估代理在真实世界中的渗透测试性能提供了一个更准确的平台。
TermiBench is a real-world, fine-grained, agent-oriented penetration testing evaluation benchmark. It contains 510 hosts spanning 25 distinct services and 30 CVEs, covering vulnerabilities from 2015 to 2025. Each host is configured with up to seven non-vulnerable services and one vulnerable service dating within the 2015 to 2025 period. TermiBench is designed to more authentically simulate real-world penetration testing scenarios, requiring agents to conduct autonomous reconnaissance without prior information and distinguish between exploitable and non-exploitable services. This benchmark provides a more accurate platform for evaluating agents' penetration testing performance in real-world scenarios.
提供机构:
复旦大学
创建时间:
2025-09-11
原始信息汇总
数据集概述:Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing
基本信息
- 标题:Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing
- 作者:Wuyuao Mai, Geng Hong, Qi Liu, Jinsong Chen, Jiarun Dai, Xudong Pan, Yuan Zhang, Min Yang
- 提交日期:2025年9月11日(v1),2025年9月15日修订(v2)
- arXiv标识符:arXiv:2509.09207v2
- DOI:https://doi.org/10.48550/arXiv.2509.09207
- 所属学科:Cryptography and Security (cs.CR)
摘要
渗透测试对于识别和缓解安全漏洞至关重要,但传统方法仍然昂贵、耗时且依赖专家人力。近期研究探索了AI驱动的渗透测试代理,但评估依赖于过度简化的夺旗(CTF)设置,这些设置嵌入了先验知识并降低了复杂性,导致性能估计远离实际实践。
本研究通过引入第一个真实世界、面向代理的渗透测试基准TermiBench来弥补这一差距,该基准将目标从“找旗”转变为实现全系统控制。基准涵盖25个服务和30个CVE的510个主机,具有需要自主侦察、区分良性和可利用服务以及稳健漏洞利用执行的现实环境。使用此基准,发现现有系统在现实条件下几乎无法获得系统shell。
为解决这些挑战,提出了TermiAgent,一个多代理渗透测试框架。TermiAgent通过定位记忆激活机制减轻长上下文遗忘,并通过结构化代码理解而非简单检索构建可靠的漏洞利用库。在评估中,该工作优于最先进的代理,表现出更强的渗透测试能力,减少执行时间和财务成本,并展示了即使在笔记本电脑规模部署上的实用性。该工作提供了第一个用于真实世界自主渗透测试的开源基准和一个新颖的代理框架,为AI驱动的渗透测试建立了里程碑。
相关资源
- 论文PDF:https://arxiv.org/pdf/2509.09207v2
- HTML版本:https://arxiv.org/html/2509.09207v2
- TeX源码:https://arxiv.org/src/2509.09207v2
- 其他格式:https://arxiv.org/format/2509.09207v2
搜集汇总
数据集介绍

构建方式
TermiBench作为首个面向真实渗透测试场景的基准数据集,其构建过程严格遵循现实网络环境复杂性原则。研究团队从2015至2025年间公开的CVE漏洞库中筛选出30个具有远程代码执行能力的核心漏洞,覆盖25种常见服务类型。通过系统化配置510个主机实例,每个实例在单一漏洞服务基础上引入0至7个良性背景服务,形成多层级环境复杂度。数据集采用Docker容器技术实现环境隔离,确保实验的可复现性与安全性,所有漏洞环境均基于真实世界软件版本和配置参数进行精准还原。
特点
该数据集的核心特征体现在其高度仿真的多服务环境架构与无先验知识的设计理念。相较于传统CTF风格基准,TermiBench摒弃了预设入口点和漏洞路径提示,要求测试代理仅通过子网信息自主完成侦察、服务鉴别和漏洞利用全流程。数据集包含从简单单服务到复杂多服务(最多8个并发服务)的渐进式难度梯度,其中良性服务占比达83.3%,有效模拟真实网络中存在的干扰噪声。评估指标以获取系统shell为终极目标,并记录权限提升状态,全面衡量渗透测试深度。
使用方法
研究人员可通过指定目标子网范围启动测试流程,代理需自主执行端口扫描、服务指纹识别、漏洞探测和利用链构建。数据集提供标准化API接口支持自动化评估,系统会实时记录代理的侦察准确性、漏洞利用成功率及最终系统控制状态。使用时应部署于隔离网络环境,建议采用Kali Linux作为测试平台,通过Docker Compose统一管理所有靶机实例。评估结果以shell获取率和root权限获取率为核心指标,支持横向对比不同代理在复杂环境下的适应能力。
背景与挑战
背景概述
TermiBench由复旦大学研究团队于2025年提出,作为首个面向真实场景的自动化渗透测试基准数据集。该数据集聚焦于解决传统渗透测试评估中存在的仿真度不足问题,通过构建包含510个主机节点、覆盖25种服务类型和30个CVE漏洞的复杂环境,将评估目标从传统的‘旗帜捕获’转变为系统控制权获取。其创新性在于模拟真实网络环境中多服务共存、背景噪声干扰等特征,要求智能体自主完成侦察、漏洞鉴别和利用等全流程任务,显著提升了AI驱动渗透测试研究的现实适用性与评估可靠性。
当前挑战
TermiBench针对的领域挑战在于突破传统CTF式评估的局限性,解决真实渗透测试中存在的多服务环境复杂性、初始信息缺失和动态攻击面识别等核心难题。构建过程中的技术挑战包括:如何设计具有不同良性服务密度的分层环境以模拟真实网络噪声;如何确保30个历史CVE漏洞在容器化环境中的可复现性与安全性;以及如何建立自动化评估体系以准确验证系统控制权获取状态,避免人工干预带来的评估偏差。
常用场景
衍生相关工作
TermiBench催生了一系列创新性研究工作,其中最具代表性的是其配套框架TermiAgent。该框架采用定位记忆激活(LMA)机制解决长上下文遗忘问题,并通过统一漏洞描述符(UED)实现野生漏洞利用代码的标准化封装。后续研究基于该基准开发了多智能体协同渗透、动态武器库构建、轻量级模型部署等延伸方向,例如对Qwen系列轻量模型的适配优化研究,以及针对复杂Web渗透场景的扩展评估框架,显著推动了自动化渗透测试领域的算法与工程实践进展。
数据集最近研究
最新研究方向
在网络安全领域,TermiBench作为首个面向真实渗透测试场景的基准数据集,正推动自动化渗透测试研究从传统的CTF式简化环境向多服务、高噪声的复杂实战环境转型。该数据集涵盖510个主机实例、30个CVE漏洞及25种服务,通过引入良性背景服务模拟真实网络噪声,要求智能体具备自主侦察、漏洞鉴别与稳健利用能力。前沿研究聚焦于多智能体协同框架与长上下文记忆管理机制,以解决现有系统在真实环境中因信息过载而导致的性能退化问题。相关热点包括基于大语言模型的自主渗透测试智能体开发,以及轻量化部署在边缘设备上的实战应用,其成果对降低渗透测试成本、提升自动化水平具有里程碑意义,并为AI驱动的网络安全防御体系提供了关键评估基准。
相关研究论文
- 1Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing复旦大学 · 2025年
以上内容由遇见数据集搜集并总结生成



