SecureVibeBench

github2026-04-15 更新2026-04-17 收录

下载链接：

https://github.com/iCSawyer/SecureVibeBench

下载链接

链接失效反馈

官方服务：

资源简介：

SecureVibeBench是第一个用于代理安全编码的SWE-bench级别基准测试，包含105个源自真实漏洞的C/C++编码任务，覆盖多个项目。每个任务重建了人类开发者引入漏洞的真实场景，要求代理实现相同需求，并评估其是否引入相同或新的安全问题。评估包括功能正确性、基于PoV的动态安全评估和基于SAST工具的静态安全评估。

SecureVibeBench is the first SWE-bench-level benchmark dedicated to secure coding for AI agents. It contains 105 C/C++ coding tasks derived from real-world vulnerabilities, spanning multiple software projects. Each task reconstructs the realistic scenario where a human developer introduced a vulnerability, requiring the agent to implement the specified functional requirements, and evaluates whether the agent introduces either the same or novel security issues. The evaluation covers three core dimensions: functional correctness, PoV-based dynamic security assessment, and static security assessment based on SAST tools.

创建时间：

2026-04-01

原始信息汇总

SecureVibeBench 数据集概述

基本信息

数据集名称：SecureVibeBench
简介：首个用于智能体安全氛围编码的 SWE-bench 级别基准测试。
来源：包含 105 个 C/C++ 编码任务，源自真实漏洞（OSS-Fuzz/ARVO），覆盖多个项目。
核心目标：重构人类开发者将漏洞引入代码库的真实场景，要求智能体实现相同需求，并评估其是否会引入相同漏洞或新的安全问题。
发布状态：代码与数据已发布。
相关论文：已被 ACL 2026 主会议接收，并推荐为口头报告。
许可证：MIT
数据访问：可通过 Hugging Face Datasets 使用（https://huggingface.co/datasets/iCSawyer/SecureVibeBench）。

数据集内容与构建

任务数量：105 个任务。
编程语言：C/C++。
任务来源：基于真实漏洞（来自 OSS-Fuzz 和 ARVO）构建。
场景重构：每个任务均重构了人类开发者引入漏洞的真实编码场景。

评估方法

数据集对生成的代码进行三方面综合评估：

功能正确性评估：评估代码的功能是否正确。
基于 PoV 的动态安全评估：基于漏洞证明进行动态安全评估。
基于 SAST 工具的静态安全评估：使用静态应用安全测试工具评估新的安全问题。

独特性与重要性

首个经过同行评审的、SWE-bench 级别的安全氛围编码基准测试。
唯一同时考虑功能正确性、基于 PoV 的评估以及 SAST 工具新安全问题检测的安全编码基准测试。

使用与评估

数据准备：需解压 data/full_dataset.zip 文件，或通过提供的脚本使用 Hugging Face Datasets。
环境配置：需在 evaluation 目录下配置包含 API 密钥的 .env 文件。
运行评估：可通过提供的脚本运行评估，支持对单个实例或全部实例进行评估。
资源要求：每个实例配备一个从 Docker Hub 拉取的 Docker 镜像，需确保足够的磁盘空间。
当前支持的智能体与模型：
- 智能体：aider, openhands, sweagent, claudecode, codex
- 模型：claude-3-7-sonnet-20250219, claude-sonnet-4-5-20250929, gpt-4.1, gpt-5-2025-08-07, deepseek-chat

引用信息

如需引用，请使用以下 BibTeX 条目： bibtex @misc{chen2026securevibebenchevaluatingsecurecoding, title={SecureVibeBench: Evaluating Secure Coding Capabilities of Code Agents with Realistic Vulnerability Scenarios}, author={Junkai Chen and Huihui Huang and Yunbo Lyu and Junwen An and Jieke Shi and Chengran Yang and Ting Zhang and Haoye Tian and Yikun Li and Zhenhao Li and Xin Zhou and Xing Hu and David Lo}, year={2026}, eprint={2509.22097}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2509.22097}, }

搜集汇总

数据集介绍

构建方式

在软件工程与代码安全领域，SecureVibeBench作为首个SWE-bench级别的安全编码基准测试，其构建过程体现了严谨的实证研究理念。该数据集从现实漏洞库OSS-Fuzz与ARVO中精心筛选了105个C/C++编程任务，这些任务均源自真实项目中的安全缺陷。为了模拟人类开发者引入漏洞的真实场景，研究团队重构了每个任务对应的代码库环境，要求智能体在实现相同功能需求的过程中，观察其是否会重现原有漏洞或引发新的安全问题。这种基于真实漏洞场景的还原式构建方法，为评估代码智能体的安全编码能力提供了高度逼真的测试基础。

特点

SecureVibeBench的独特之处在于其多维度的评估体系，这在现有安全编码基准测试中尚属首创。数据集不仅关注代码的功能正确性，更创新性地融合了动态安全评估与静态安全分析。通过基于漏洞证明的动态测试，能够精确检测智能体是否复现了已知漏洞；同时借助静态应用安全测试工具，可系统性识别代码中潜在的新安全缺陷。这种三位一体的评估框架，全面覆盖了从功能实现到深层安全属性的检验维度，为衡量智能体在真实开发环境中的安全编码能力提供了科学且完备的度量标准。

使用方法

使用SecureVibeBench进行评估时，研究者需先解压数据集并配置相应的API密钥。评估框架支持多种主流代码智能体与大型语言模型的集成，包括Aider、SWE-agent等智能体框架以及Claude、GPT等模型。通过提供的脚本，用户可以针对单个任务实例或整个数据集运行自动化测试。每个测试实例均配备了独立的Docker镜像环境，确保评估过程的可复现性与隔离性。该设计使得研究者能够便捷地扩展新的智能体或模型，并在统一标准下系统性地比较不同系统在安全编码任务上的表现。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码智能体的安全编码能力评估长期缺乏贴近真实漏洞引入场景的基准测试。SecureVibeBench作为首个SWE-bench级别的安全编码基准，由Junkai Chen等研究人员于2026年构建，并获ACL 2026主会议收录。该数据集从OSS-Fuzz和ARVO等真实漏洞库中提取105项C/C++编码任务，旨在重构人类开发者引入漏洞的原始编码情境，以评估代码智能体在实现相同功能需求时是否复现或引入安全缺陷。其创新性在于首次将功能正确性、基于漏洞证明的动态安全评估及静态分析工具检测相结合，为衡量智能体在复杂现实环境中的安全编码能力提供了标准化框架，推动了自动化代码生成系统在安全性方面的研究进展。

当前挑战

SecureVibeBench致力于解决代码智能体安全编码能力评估这一核心领域问题，其挑战在于如何精准模拟人类开发过程中漏洞引入的真实逻辑场景，而非简单检测已知漏洞。构建过程中需从海量开源项目历史中筛选具有明确漏洞引入链的案例，并确保任务环境能完整复现原始代码库的依赖与上下文。另一挑战在于设计多维评估体系，需协调功能测试、动态漏洞验证与静态分析工具的结果，以区分代码的功能性错误与安全性缺陷。此外，数据集的扩展性亦面临考验，需持续纳入新兴漏洞类型与编程语言，以维持其在快速演进的安全编码研究中的基准价值。

常用场景

经典使用场景

在软件工程与代码安全领域，SecureVibeBench作为首个SWE-bench级别的安全编码基准测试，其经典使用场景聚焦于评估代码智能体在真实漏洞引入情境下的安全编码能力。该数据集重构了人类开发者将漏洞引入代码库的实际场景，要求智能体实现相同的功能需求，从而检验其是否复现原有漏洞或引入新的安全问题。通过结合功能正确性评估、基于漏洞证明的动态安全测试以及静态应用安全测试工具，为研究者提供了一个全面、严谨的评估框架，用以衡量智能体在复杂编码任务中的安全性与可靠性。

衍生相关工作

SecureVibeBench的推出催生了一系列围绕代码智能体安全评估的衍生研究。基于其构建的评估框架，后续工作可深入探索不同大语言模型在安全编码任务上的性能差异，或开发新型安全导向的代码生成方法。该数据集也为跨领域研究提供了桥梁，例如结合形式化验证技术增强动态安全测试，或利用漏洞模式挖掘优化静态分析工具。这些衍生工作共同推动了代码智能体安全能力的标准化与提升，为构建更可靠的自动化软件开发生态系统贡献了关键资源。

数据集最近研究