CVE-Bench

Name: CVE-Bench
Creator: 伊利诺伊大学厄巴纳-香槟分校计算机与数据科学学院
Published: 2025-03-22 01:32:32
License: 暂无描述

arXiv2025-03-22 更新2025-03-25 收录

下载链接：

https://github.com/uiuc-kang-lab/cve-bench

下载链接

链接失效反馈

官方服务：

资源简介：

CVE-Bench是一个基于真实世界应用程序关键性常见漏洞和暴露（CVE）构建的网络安全基准测试。该数据集由伊利诺伊大学厄巴纳-香槟分校计算机与数据科学学院创建，包含40个被CVSS版本3评为“关键”级别的CVE，涵盖了多种类型的网络应用，如在线教育、电子商务、机器学习服务、邮件服务器等。CVE-Bench旨在模拟不同阶段的漏洞生命周期，包括零日和一日场景，并提供了一个沙盒框架，使LLM代理能够在模拟真实世界条件的场景中利用应用程序的漏洞。

CVE-Bench is a cybersecurity benchmark constructed from critical Common Vulnerabilities and Exposures (CVE) across real-world applications. This dataset was created by the School of Computer and Data Sciences at the University of Illinois Urbana-Champaign, and it includes 40 CVEs rated as 'Critical' under CVSS v3, covering diverse types of network applications such as online education platforms, e-commerce systems, machine learning services, mail servers, and more. CVE-Bench aims to simulate various stages of the vulnerability lifecycle, including zero-day and one-day scenarios, and provides a sandbox framework that enables LLM agents to exploit application vulnerabilities in scenarios simulating real-world conditions.

提供机构：

伊利诺伊大学厄巴纳-香槟分校计算机与数据科学学院

创建时间：

2025-03-22

搜集汇总

数据集介绍

构建方式

CVE-Bench数据集构建采用了系统化的沙盒框架，通过精选40个来自美国国家漏洞数据库（NVD）的‘关键’级别Web应用漏洞（CVSS 3.1评分≥9.0），确保漏洞覆盖的多样性和高危性。研究团队为每个漏洞创建隔离的容器环境，精确复现漏洞场景，并手工验证参考利用方案（PoC），平均耗时5-24人时/漏洞。数据集创新性地设计了八类标准化攻击向量（如拒绝服务、数据库篡改等），并开发自动化评估系统以检测代理攻击成效，同时模拟零日漏洞和已公开漏洞（one-day）两种生命周期阶段。

特点

CVE-Bench的核心价值在于其真实性与系统性：首次将真实世界高危Web漏洞（如WordPress插件、AI服务等12类应用）转化为可量化评估的基准，覆盖从内容管理系统到邮件服务器的多领域场景。数据集通过容器化技术实现环境隔离，支持动态监控攻击行为，并首创八种标准化攻击类型的细粒度评估维度。特别设计的漏洞生命周期模拟机制（零日/已公开场景）和自动化评分体系，为评估AI代理的复杂漏洞利用能力提供了可靠框架，其漏洞严重度与多样性显著超越现有CTF类基准。

使用方法

使用CVE-Bench时，研究者需在沙盒容器中部署目标漏洞环境，通过标准化接口向AI代理发送任务描述（含应用URL、攻击目标类型等）。代理需在30次迭代内完成漏洞探测与攻击，系统会实时检测是否达成八类预设攻击目标（如数据库篡改成功等）。评估支持两种模式：零日场景仅提供应用基础信息，而一场景会附加漏洞描述。数据集提供预构建的Docker容器和评估API，用户可通过http://target-container:9091接口获取攻击结果，并参考附带的参考利用方案（PoC）验证基准可靠性。

背景与挑战

背景概述

CVE-Bench是由伊利诺伊大学香槟分校的研究团队于2025年提出的一个开创性网络安全基准测试数据集。该数据集聚焦于评估大型语言模型（LLM）代理在真实网络应用漏洞利用方面的能力，填补了现有基准测试在现实场景覆盖度方面的空白。研究团队从美国国家漏洞数据库（NVD）精选了40个被通用漏洞评分系统（CVSSv3）评定为'严重'级别的Web应用漏洞，涵盖在线教育、电子商务、AI服务等12类应用场景。通过创新的沙盒框架设计，CVE-Bench首次实现了对零日漏洞和公开漏洞（一日期）两种生命周期的标准化测试，为AI安全研究提供了重要的评估工具。

当前挑战

该数据集面临三重核心挑战：在领域问题层面，需解决现有基准测试过度依赖抽象CTF挑战而无法反映真实漏洞复杂性的问题，包括需要理解应用架构、执行多阶段攻击等；在构建过程层面，每个漏洞的复现平均需要5-24人时，涉及漏洞分析、补丁研究、弱点定位等高专业性工作；在评估体系层面，需设计能自动检测8类标准攻击（如拒绝服务、数据库篡改等）的精细化评分系统，同时要防范LLM代理对评估服务器的误攻击。这些挑战使得构建真实网络安全基准成为极具专业壁垒的研究任务。

常用场景

经典使用场景

在网络安全领域，CVE-Bench数据集被广泛应用于评估大型语言模型（LLM）代理在真实世界Web应用漏洞利用中的能力。该数据集通过模拟零日漏洞和一日漏洞场景，为研究者提供了一个标准化的测试环境，用以衡量AI代理在复杂攻击路径中的表现。其沙盒框架设计允许代理在隔离环境中执行多种攻击类型，如数据库修改、文件访问和拒绝服务攻击，从而全面评估代理的漏洞利用能力。

解决学术问题

CVE-Bench解决了现有网络安全基准测试的局限性，如抽象化的Capture the Flag（CTF）挑战或漏洞覆盖不足的问题。通过整合40个真实世界的高危漏洞（CVSS评分≥9.0），该数据集为研究社区提供了评估AI代理在复杂攻击场景中的标准化工具。其意义在于填补了学术界对AI驱动的自动化攻击能力量化评估的空白，并为制定防御策略提供了数据支持。

衍生相关工作

CVE-Bench催生了多项重要研究，如Fang等人（2024c）提出的分层规划代理团队框架，该工作利用数据集的零日漏洞场景优化了多代理协同攻击策略。Zhang等人（2024）的Cybench项目则通过集成CVE-Bench的评估指标，开发了具有环境反馈机制的ReAct式代理。此外，数据集启发了AutoGPT在网络安全领域的适配研究，其自批判机制被证明能有效提升漏洞探索效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集