CVE-Bench
收藏arXiv2025-03-22 更新2025-03-25 收录
下载链接:
https://github.com/uiuc-kang-lab/cve-bench
下载链接
链接失效反馈官方服务:
资源简介:
CVE-Bench是一个基于真实世界应用程序关键性常见漏洞和暴露(CVE)构建的网络安全基准测试。该数据集由伊利诺伊大学厄巴纳-香槟分校计算机与数据科学学院创建,包含40个被CVSS版本3评为“关键”级别的CVE,涵盖了多种类型的网络应用,如在线教育、电子商务、机器学习服务、邮件服务器等。CVE-Bench旨在模拟不同阶段的漏洞生命周期,包括零日和一日场景,并提供了一个沙盒框架,使LLM代理能够在模拟真实世界条件的场景中利用应用程序的漏洞。
CVE-Bench is a cybersecurity benchmark constructed from critical Common Vulnerabilities and Exposures (CVE) across real-world applications. This dataset was created by the School of Computer and Data Sciences at the University of Illinois Urbana-Champaign, and it includes 40 CVEs rated as 'Critical' under CVSS v3, covering diverse types of network applications such as online education platforms, e-commerce systems, machine learning services, mail servers, and more. CVE-Bench aims to simulate various stages of the vulnerability lifecycle, including zero-day and one-day scenarios, and provides a sandbox framework that enables LLM agents to exploit application vulnerabilities in scenarios simulating real-world conditions.
提供机构:
伊利诺伊大学厄巴纳-香槟分校计算机与数据科学学院
创建时间:
2025-03-22
搜集汇总
数据集介绍

构建方式
CVE-Bench数据集构建采用了系统化的沙盒框架,通过精选40个来自美国国家漏洞数据库(NVD)的‘关键’级别Web应用漏洞(CVSS 3.1评分≥9.0),确保漏洞覆盖的多样性和高危性。研究团队为每个漏洞创建隔离的容器环境,精确复现漏洞场景,并手工验证参考利用方案(PoC),平均耗时5-24人时/漏洞。数据集创新性地设计了八类标准化攻击向量(如拒绝服务、数据库篡改等),并开发自动化评估系统以检测代理攻击成效,同时模拟零日漏洞和已公开漏洞(one-day)两种生命周期阶段。
特点
CVE-Bench的核心价值在于其真实性与系统性:首次将真实世界高危Web漏洞(如WordPress插件、AI服务等12类应用)转化为可量化评估的基准,覆盖从内容管理系统到邮件服务器的多领域场景。数据集通过容器化技术实现环境隔离,支持动态监控攻击行为,并首创八种标准化攻击类型的细粒度评估维度。特别设计的漏洞生命周期模拟机制(零日/已公开场景)和自动化评分体系,为评估AI代理的复杂漏洞利用能力提供了可靠框架,其漏洞严重度与多样性显著超越现有CTF类基准。
使用方法
使用CVE-Bench时,研究者需在沙盒容器中部署目标漏洞环境,通过标准化接口向AI代理发送任务描述(含应用URL、攻击目标类型等)。代理需在30次迭代内完成漏洞探测与攻击,系统会实时检测是否达成八类预设攻击目标(如数据库篡改成功等)。评估支持两种模式:零日场景仅提供应用基础信息,而一场景会附加漏洞描述。数据集提供预构建的Docker容器和评估API,用户可通过http://target-container:9091接口获取攻击结果,并参考附带的参考利用方案(PoC)验证基准可靠性。
背景与挑战
背景概述
CVE-Bench是由伊利诺伊大学香槟分校的研究团队于2025年提出的一个开创性网络安全基准测试数据集。该数据集聚焦于评估大型语言模型(LLM)代理在真实网络应用漏洞利用方面的能力,填补了现有基准测试在现实场景覆盖度方面的空白。研究团队从美国国家漏洞数据库(NVD)精选了40个被通用漏洞评分系统(CVSSv3)评定为'严重'级别的Web应用漏洞,涵盖在线教育、电子商务、AI服务等12类应用场景。通过创新的沙盒框架设计,CVE-Bench首次实现了对零日漏洞和公开漏洞(一日期)两种生命周期的标准化测试,为AI安全研究提供了重要的评估工具。
当前挑战
该数据集面临三重核心挑战:在领域问题层面,需解决现有基准测试过度依赖抽象CTF挑战而无法反映真实漏洞复杂性的问题,包括需要理解应用架构、执行多阶段攻击等;在构建过程层面,每个漏洞的复现平均需要5-24人时,涉及漏洞分析、补丁研究、弱点定位等高专业性工作;在评估体系层面,需设计能自动检测8类标准攻击(如拒绝服务、数据库篡改等)的精细化评分系统,同时要防范LLM代理对评估服务器的误攻击。这些挑战使得构建真实网络安全基准成为极具专业壁垒的研究任务。
常用场景
经典使用场景
在网络安全领域,CVE-Bench数据集被广泛应用于评估大型语言模型(LLM)代理在真实世界Web应用漏洞利用中的能力。该数据集通过模拟零日漏洞和一日漏洞场景,为研究者提供了一个标准化的测试环境,用以衡量AI代理在复杂攻击路径中的表现。其沙盒框架设计允许代理在隔离环境中执行多种攻击类型,如数据库修改、文件访问和拒绝服务攻击,从而全面评估代理的漏洞利用能力。
解决学术问题
CVE-Bench解决了现有网络安全基准测试的局限性,如抽象化的Capture the Flag(CTF)挑战或漏洞覆盖不足的问题。通过整合40个真实世界的高危漏洞(CVSS评分≥9.0),该数据集为研究社区提供了评估AI代理在复杂攻击场景中的标准化工具。其意义在于填补了学术界对AI驱动的自动化攻击能力量化评估的空白,并为制定防御策略提供了数据支持。
衍生相关工作
CVE-Bench催生了多项重要研究,如Fang等人(2024c)提出的分层规划代理团队框架,该工作利用数据集的零日漏洞场景优化了多代理协同攻击策略。Zhang等人(2024)的Cybench项目则通过集成CVE-Bench的评估指标,开发了具有环境反馈机制的ReAct式代理。此外,数据集启发了AutoGPT在网络安全领域的适配研究,其自批判机制被证明能有效提升漏洞探索效率。
以上内容由遇见数据集搜集并总结生成



