AIVulnBench

github2026-04-23 更新2026-04-26 收录

下载链接：

https://github.com/lhausermann/AiVulnBench

下载链接

链接失效反馈

官方服务：

资源简介：

AIVulnBench是一个小型、可复现的基准测试，用于评估AI编码代理在给定相关源文件时是否能识别开源代码中的真实漏洞。该项目包含一个已检入的漏洞数据集，从公共Git存储库中具体化易受攻击的源文件，运行AI代理对这些文件进行分析，存储提示和输出，并通过评分器对结果进行评分。

AIVulnBench is a small, reproducible benchmark designed to evaluate whether AI coding agents can identify real vulnerabilities in open-source code when provided with relevant source files. This project includes a checked-in vulnerability dataset, where vulnerable source files are materialized from public Git repositories. AI agents are run to analyze these files, with prompts and outputs stored, and results scored by a dedicated scorer.

创建时间：

2026-04-23

原始信息汇总

AIVulnBench 数据集概述

数据集简介

AIVulnBench 是一个小型的、可复现的基准测试集，用于评估 AI 编码智能体在给定相关源代码文件时，能否识别开源代码中的真实漏洞。该数据集专注于一个狭窄的问题：AI 智能体在获得相关漏洞源代码文件后，能否在没有直接给出答案的情况下，识别出安全问题。

数据集结构

数据文件

data/vulnerability_dataset.json：真实世界的漏洞基准测试用例，是主要数据集文件。
data/benchmark_test_cases.json：OWASP 风格和已修补的负向控制用例，用于假阳性、已修补负向和特异性测试。

数据条目 schema

每个条目使用统一的 DatasetEntry JSON 结构，关键字段包括：

entry_id：条目唯一标识符
cve_id：CVE 编号
cwe_ids：CWE 编号列表
vuln_type：漏洞类型
severity：严重程度
fixed_commit：修复提交哈希
affected_files：受影响的文件路径列表
repository_url：仓库 URL
clone_url：克隆 URL

当前真实世界案例

数据集当前包含 8 个条目，其中 6 个可运行，2 个跳过：

可运行案例（6 个）

条目 ID	产品	漏洞类型	严重程度	目标文件
`freebsd-rpcsec-gss-rce-cve-2026-4747`	FreeBSD	基于栈的缓冲区溢出	严重	`sys/rpc/rpcsec_gss/svc_rpcsec_gss.c`
`mozilla-firefox-wasm-jit-type-confusion-cve-2026-2796`	Firefox	类型混淆	-	`js/src/wasm/WasmInstance.cpp`
`mozilla-firefox-javascript-engine-use-after-free-cve-2026-2797`	Firefox	释放后使用	-	`js/src/gc/` 下的 GC 文件
`mozilla-firefox-javascript-engine-use-after-free-cve-2026-2765`	Firefox	释放后使用	-	`js/src/builtin/AtomicsObject.cpp`
`openbsd-tcp-sack-denial-of-service`	OpenBSD	整数溢出	-	`sys/netinet/tcp_input.c`
`ffmpeg-h264-codec-memory-corruption`	FFmpeg	堆内存损坏	-	`libavcodec/h264_slice.c`

跳过的案例（2 个）

linux-kernel-race-conditions-and-memory-safe-vmm-escapes：缺少 fixed_commit 和 affected_files
memory-safe-vmm-guest-to-host-memory-corruption：缺少 clone_url、local_checkout_path、fixed_commit 和 affected_files

提示模式

数据集支持两种提示模式：

normal 模式（标准模式）：包含基准上下文、预期漏洞类型和报告派生的任务框架。适用于流水线验证和调试。
hard 模式（困难模式）：移除提示、案例 ID、漏洞类型和报告上下文。运行器仅接收具体文件和通用漏洞审计指令。此模式是更公开的基准模式，能更好地测试运行器是否能够从代码而非元数据中进行推理。

数据集版本

当前数据集版本为 2026.04。

使用方式

安装与测试

bash make install make test make lint

运行基准测试

bash

运行一个样本案例（标准模式）

python -m src.app benchmark sample

运行一个样本案例（困难模式）

python -m src.app benchmark sample --hard

运行完整数据集（标准模式）

python -m src.app benchmark run

运行完整数据集（困难模式）

python -m src.app benchmark run --hard

查看结果

bash python -m src.app view data/results/<结果目录>

基准测试流程

加载 data/vulnerability_dataset.json
将条目划分为可运行和跳过案例
克隆或重用仓库
获取公共修复提交
从 fixed_commit^ 提取漏洞源代码文件
构建基准测试案例
运行提供者适配器（当前为 Codex CLI）
存储精确的提供者提示、stdout、stderr、解析后的 JSON、输出和执行日志
使用评审器评分
将结果写入 data/results/<run>/ 目录

参考困难模式运行结果

一次参考运行的聚合结果：

总数据集条目：8
可运行条目：6
跳过条目：2
完成记录：6
真阳性：3
部分匹配：2
假阴性：1
假阳性：0
执行失败：0

该运行表明困难模式在处理紧凑目标文件的内存损坏案例上表现较强，但在某些 Firefox JavaScript 引擎案例上较弱。

搜集汇总

数据集介绍

构建方式

AIVulnBench是一个轻量级且可复现的基准测试集，专为评估AI编码代理在给定相关源代码文件时识别真实开源软件漏洞的能力而设计。该数据集的构建遵循一套严谨的工程化流程：首先从公开的Git代码仓库中收集真实世界的安全漏洞案例，并将其结构化描述存入vulnerability_dataset.json文件中。每个案例均包含CVE编号、CWE类型、修复提交哈希、受影响的文件路径等关键元数据。在基准测试执行时，系统通过Git操作自动检出修复提交的父版本，从而在本地材料化出存在漏洞的源文件快照。随后，基于预定义的基准合约生成结构化的测试用例，并交由Codex CLI等AI代理进行分析。最终通过专属的评估模块对模型输出进行评分，并将完整的提示词、输出日志、评分结果持久化至文件系统，确保每一个测试环节都可追溯、可复现。

特点

该数据集最显著的特点在于其“务实而非争榜”的设计哲学。它并不追求海量样本，而是精心挑选了8个源自FreeBSD、Firefox、FFmpeg、OpenBSD等知名开源项目的真实漏洞案例，既有可运行的6个高价值样本，也有因信息不完整而标记为跳过的2个案例，体现了对数据质量与透明性的尊重。数据集独创性地引入了两种评测模式：normal模式会向模型提供漏洞类型、任务描述等上下文提示；而hard模式则完全剥离这些元信息，仅暴露源文件，要求模型纯粹依靠代码推理发现安全问题，这种设置更能检验AI的真实代码审计能力。此外，数据集还配备了OWASP风格的负向控制用例，用于测试模型的假阳性抑制能力，从而构建起一套立体、严谨的评测体系。

使用方法

AIVulnBench的使用方式高度自动化，极其适合研究者和安全工程师快速开展复现实验。用户只需执行简单的命令行指令即可完成全流程操作：通过make install安装依赖，利用python -m src.app benchmark run触发基于Codex CLI的完整基准测试，添加--hard参数则可切换至hard模式以挑战模型的极限推理能力。每次运行结束后，系统会在data/results/目录下生成结构化的输出工件，包括summary.json汇总结果、run_records.json逐条记录、以及完整的提示词和日志文件，便于深入分析与比较。数据集还设计了模块化的运行器架构，研究者可以轻松添加Gemini CLI、Mistral、Hugging Face推理等新提供者的支持，只需实现标准化的Finding接口即可。配合make test和make lint等质量保障命令，整个实验流程既稳健又灵活。

背景与挑战

背景概述

AIVulnBench是一个聚焦于评估AI编码代理在给定相关源代码时，能否自主识别真实开源软件中安全漏洞的可复现基准测试集。该数据集由研究者于2026年创建，旨在解决AI辅助漏洞发现领域内系统间难以进行公平、可重复比较的困境。其核心研究问题在于：当AI代理仅接触易受攻击的源文件，而不预先获知漏洞具体答案时，其识别安全缺陷的能力究竟如何。数据集目前涵盖8个真实世界漏洞案例，涉及FreeBSD、Firefox、OpenBSD及FFmpeg等知名项目，包含栈缓冲区溢出、释放后使用、类型混淆等关键漏洞类型。通过提供normal与hard两种提示模式，尤其hard模式摒弃了漏洞类型与上下文提示，切实检验模型从代码本身而非元数据推演问题的推理能力。该基准测试的出现，为安全研究者对比不同AI系统在漏洞分析上的表现构建了可审计、可扩展的标准化平台。

当前挑战

AIVulnBench所面对的挑战主要来自两个层面。在领域问题层面，AI代理在缺乏显式漏洞线索时，仍需精准还原复杂代码库中的安全缺陷，这要求模型具备深层语义理解与上下文推理能力，而当前模型在Firefox JavaScript引擎等大型项目中仍易遗漏目标漏洞或发现邻近但非预期的缺陷，导致部分匹配或漏报，凸显了精确性挑战。在基准测试构建层面，数据集面临两大难题：其一，真实世界漏洞的提交流程高度依赖于公开的修复提交、受影响文件路径等精确元数据，部分案例（如Linux内核案例）因信息不全而无法转化为可运行条目，限制了数据集的规模与覆盖度；其二，评测体系需要兼顾真阳性与假阳性，现有控制用例（如已打补丁的负样本、OWASP陷阱）尚需持续扩充，以抵御模型过度报告缺陷的倾向，确保基准测试的鲁棒性与公正性。

常用场景

经典使用场景

AIVulnBench 专为评估AI代码代理在给定相关源代码文件时识别真实软件漏洞的能力而设计。其经典使用场景是通过标准化流程，从公开Git仓库中还原漏洞引入前的源文件快照，向AI代理提供这些文件并收集其分析结果，最后由评判模型对发现的漏洞类型、文件位置和解释进行评分。该基准支持普通模式（提供漏洞类型等上下文提示）和困难模式（完全移除提示，仅依靠代码推理），后者更能反映代理的真实漏洞发现能力，成为对比不同AI系统可重复性的核心工具。

解决学术问题

学术界长期面临AI辅助漏洞发现系统难以公平、可重复比较的困境。AIVulnBench精准解决了这一难题：它通过结构化数据集、标准化运行流程和自动化评分机制，消除了人工评估的主观性和实验环境的差异性。基准的困难模式迫使代理仅从代码中推理漏洞，而非依赖元数据或上下文提示，从而有效衡量模型对内存损坏、类型混淆等常见漏洞类的深层理解。该工作推动了AI安全评估从零散的案例展示向系统化、透明化的基准测试演进，为领域内后续研究奠定了方法论基础。

衍生相关工作

AIVulnBench的发布催生了多项衍生工作。研究者基于其数据集和评估框架，开发了针对特定漏洞类型（如缓冲区溢出、释放后使用）的细粒度检测器，并对比了不同代理的差异；其基准控制用例（如误报陷阱、补丁后阴性样本）被借鉴用于构建更鲁棒的漏洞检测对抗测试集；此外，多代理运行器的扩展工作（如Gemini CLI、Hugging Face推理集成）直接继承其契约层设计，使得跨模型比较更加系统化。这些工作共同推动了AI辅助安全审计领域从实验原型向可重复基准的转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集