SecureAgentBench

Name: SecureAgentBench
Creator: 新加坡管理大学,新加坡国立大学,蒙纳士大学,阿尔托大学,约克大学,浙江大学
Published: 2025-09-26 17:18:57
License: 暂无描述

arXiv2025-09-26 更新2025-09-30 收录

下载链接：

https://github.com/iCSawyer/SecureAgentBench

下载链接

链接失效反馈

官方服务：

资源简介：

SecureAgentBench是一个包含105个编码任务的数据集，旨在严格评估代码代理在安全代码生成方面的能力。每个任务都包括真实的任务设置，需要在大型的代码库中进行多文件编辑，基于真实世界的开源漏洞构建的上下文，以及功能测试、通过概念验证漏洞进行的漏洞检查和静态分析检测新引入漏洞的全面评估。该数据集旨在模拟软件开发过程中人类开发者引入漏洞的情境，并提供了真实且符合实际软件演变的评估场景。

SecureAgentBench is a dataset consisting of 105 coding tasks, designed to rigorously evaluate the capabilities of code agents in secure code generation. Each task includes realistic task settings, requires multi-file edits within large-scale codebases, uses contexts constructed from real-world open-source vulnerabilities, and features comprehensive evaluations covering functional tests, vulnerability checks via proof-of-concept (PoC) exploits, and static analysis for detecting newly introduced vulnerabilities. This dataset aims to simulate the scenario where human developers introduce vulnerabilities during software development, and provides realistic assessment scenarios that align with actual software evolution practices.

提供机构：

新加坡管理大学,新加坡国立大学,蒙纳士大学,阿尔托大学,约克大学,浙江大学

创建时间：

2025-09-26

原始信息汇总

SecureAgentBench 数据集概述

基本信息

数据集名称：SecureAgentBench
托管地址：https://github.com/iCSawyer/SecureAgentBench

当前状态

开发状态：代码库准备中
可用性说明：暂未发布，请保持关注

搜集汇总

数据集介绍

构建方式

SecureAgentBench通过系统化流程构建了105个真实漏洞场景的编程任务。该数据集从OSS-Fuzz平台收集真实漏洞报告，采用两阶段验证方法精确定位漏洞引入点：首先通过SZZ算法筛选候选提交，随后利用概念验证程序动态验证漏洞生命周期。每个任务包含多文件编辑需求，平均涉及2845个文件和55万行代码，并配备434个功能测试用例和静态安全检测工具，确保评估场景与真实软件开发环境高度一致。

特点

该数据集具备三大核心特征：采用仓库级任务形式，要求智能体在大型代码库中进行跨文件编辑；基于真实漏洞引入上下文构建对齐场景，精准还原人类开发者引入漏洞的原始环境；提供功能正确性与安全性双重评估机制，结合差分测试、概念验证漏洞检测和静态分析工具，全面衡量生成代码的质量。数据集涵盖11种CWE漏洞类型，其中堆缓冲区溢出占比最高达46.7%，充分体现了现实软件项目中安全风险的分布特征。

使用方法

使用SecureAgentBench时，研究者需为代码智能体提供包含自然语言需求的编程任务，智能体通过分析代码库结构并执行多文件修改来实现需求。评估阶段采用Docker化环境运行功能测试套件，通过差分测试验证功能正确性；安全检测则结合历史漏洞的概念验证程序和Semgrep静态分析工具，分别识别重现漏洞和新引入的安全风险。最终将生成结果分类为六种类型，从无输出到完全正确安全，为不同维度的性能分析提供细粒度指标。

背景与挑战

背景概述

SecureAgentBench由新加坡管理大学等机构于2025年9月联合推出，聚焦于大语言模型驱动的代码代理在安全代码生成领域的评估。该数据集基于真实开源漏洞构建，包含105个需要多文件编辑的编程任务，旨在模拟软件维护过程中漏洞引入的真实场景。通过整合功能测试、概念验证漏洞利用和静态分析三重评估机制，该数据集为衡量代码代理的安全编码能力提供了严谨基准，对提升智能软件开发可靠性具有重要推动作用。

当前挑战

该数据集致力于解决代码代理在真实漏洞场景下安全生成代码的核心挑战，包括多文件编辑的复杂性、长上下文理解以及功能正确性与安全性兼顾的难题。构建过程中面临三重挑战：需从OSS-Fuzz海量漏洞中精确回溯漏洞引入点，确保上下文对齐；需设计能同时验证功能正确性和检测新增漏洞的综合评估框架；需在保持安全中立的前提下生成高质量的编程需求描述，避免数据污染。

常用场景

经典使用场景

在软件工程安全研究领域，SecureAgentBench作为首个融合真实漏洞场景的基准测试，主要用于评估代码智能体在复杂软件仓库环境下的安全编码能力。该数据集通过重构开源项目中真实漏洞引入时的代码上下文，要求智能体在包含数万文件的大型代码库中执行多文件编辑任务，模拟现实软件开发过程中安全缺陷的产生机制。其独特价值在于将漏洞评估从传统的函数级补全提升至仓库级演进场景，为研究智能体在真实开发环境中的安全编码行为提供了标准化测试平台。

解决学术问题

该数据集有效解决了现有基准测试在安全编码评估中的三大核心局限：一是突破了函数级补全的简化范式，通过仓库级多文件编辑任务还原真实软件开发复杂度；二是创新性地采用漏洞引入点上下文对齐方法，克服了传统基准使用漏洞修复上下文导致的评估失真问题；三是建立了功能正确性与安全性联合评估框架，首次系统性地检测智能体引入新型安全风险的现象。这些突破为理解智能体安全编码的失败模式提供了关键实证基础，推动了软件安全与AI交叉领域的研究范式转型。

衍生相关工作

该数据集催生了多个重要研究方向：在基准扩展方面，Multi-SWE-bench等研究将其多文件编辑范式推广至多语言场景；在安全增强领域，PurpCode等工作借鉴其漏洞上下文重构方法开发安全感知的训练技术；评估方法论上，BaxBench等后续研究继承其功能与安全联合评估理念，构建了全栈开发场景的测试基准。同时，CyberGym等网络安全评估平台受其启发，将真实漏洞环境引入攻防演练场景。这些衍生工作共同推动了AI软件工程安全评估从抽象测试向真实场景的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集