SEC-bench

Name: SEC-bench
Creator: 伊利诺伊大学香槟分校
Published: 2025-06-13 21:54:30
License: 暂无描述

arXiv2025-06-13 更新2025-06-17 收录

下载链接：

https://hf.co/datasets/SEC-bench/SEC-bench

下载链接

链接失效反馈

官方服务：

资源简介：

SEC-bench是一个自动化的基准测试框架，用于评估大型语言模型（LLM）代理在真实软件安全任务上的能力。该数据集包含了200个真实世界的CVE实例，每个实例都经过验证并具有可重现的漏洞利用（PoC）和经过验证的安全补丁。数据集的创建过程采用了多代理支撑结构，自动构建带有测试用例的代码仓库，在隔离环境中重现漏洞，并生成金标补丁以进行可靠评估。数据集的访问地址为https://hf.co/datasets/SEC-bench/SEC-bench。数据集旨在解决LLM代理在真实世界软件安全任务上的性能评估问题，通过实现两个关键的软件安全任务（PoC生成和漏洞补丁）来评估LLM代理的能力。

SEC-bench is an automated benchmarking framework designed to evaluate the capabilities of Large Language Model (LLM) Agents on real-world software security tasks. This dataset contains 200 real-world CVE instances, each of which has been validated, with reproducible Proof-of-Concept (PoC) exploits and verified security patches. The dataset was constructed using a multi-agent supported pipeline, which automatically builds code repositories with test cases, reproduces vulnerabilities in isolated environments, and generates gold-standard patches for reliable evaluation. The dataset is accessible at https://hf.co/datasets/SEC-bench/SEC-bench. This dataset aims to address the performance evaluation gap of LLM Agents on real-world software security tasks, by evaluating their capabilities through two core software security tasks: Proof-of-Concept generation and vulnerability patching.

提供机构：

伊利诺伊大学香槟分校

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

SEC-bench的构建采用了创新的多智能体框架，通过自动化流程从真实世界的软件漏洞中创建高质量数据集。研究团队首先从公开的CVE数据库中收集漏洞实例，随后利用定制的网络爬虫工具从多个缺陷跟踪平台获取漏洞报告。每个实例都配置了独立的Docker环境以确保可复现性，并通过专门设计的验证流程确保数据质量。整个构建过程分为预处理、验证和评估三个阶段，其中验证阶段采用Builder、Exploiter和Fixer三个专业智能体协同工作，分别负责环境构建、漏洞复现和补丁生成。这种自动化构建方法显著提高了效率，每个实例的平均成本仅为0.87美元。

特点

SEC-bench数据集具有三个显著特点：首先，它专注于真实世界的C/C++项目漏洞，这些漏洞来自38,201个潜在实例，覆盖7,926个开源项目，具有高度的实践相关性。其次，数据集包含经过严格验证的漏洞复现方法(PoC)和安全补丁，其中200个实例通过了完整验证流程。第三，数据集特别关注内存安全漏洞，如缓冲区溢出、空指针解引用等高风险漏洞类型，这些漏洞在关键基础设施中尤为常见。数据集的漏洞描述平均包含921.1个单词，提供了丰富的上下文信息，而黄金补丁平均修改17.3行代码，保持了修复的精确性。

使用方法

SEC-bench数据集主要用于评估大型语言模型在安全工程任务中的表现，特别是PoC生成和漏洞修复两个核心任务。使用时，研究人员首先需要配置包含漏洞代码库的Docker环境。对于PoC生成任务，模型需要根据漏洞描述和代码库分析生成有效的漏洞触发输入；对于漏洞修复任务，模型需要基于漏洞描述和PoC生成安全补丁。评估采用执行验证方法，通过内存安全消毒剂检测漏洞是否被正确触发或修复。数据集提供了标准化的评估脚本(secb build/repro/patch)来简化验证流程。研究人员可以通过GitHub获取完整数据集，并参与在线排行榜对比不同模型的性能表现。

背景与挑战

背景概述

SEC-bench是由伊利诺伊大学厄巴纳-香槟分校和普渡大学的研究团队于2025年推出的首个自动化软件安全基准测试框架，专注于评估大型语言模型（LLM）代理在真实世界安全工程任务中的表现。该数据集通过创新的多代理架构自动构建包含漏洞复现环境和黄金补丁的代码仓库，以每实例0.87美元的低成本创建了200个可验证的CVE实例。其核心研究问题聚焦于解决现有安全基准依赖合成数据或简化漏洞的局限性，填补了PoC生成和漏洞修复这两项关键安全任务评估的空白，为AI在软件开发生命周期中的安全部署建立了可信度标准。

当前挑战

SEC-bench面临三重核心挑战：在领域问题层面，现有安全基准71%的样本存在准确性问题，且无法捕捉安全工程师实践中面临的复杂性和模糊性；在构建过程中，漏洞报告缺乏统一模式（33%的GitHub问题忽略模板）、环境敏感性（超半数漏洞需精确匹配编译环境才能复现）以及PoC可靠性不足（40%的披露缺乏可用PoC）构成主要障碍。此外，数据污染验证显示模型在知识截止日期前后的表现无显著差异（p=0.27），而最先进模型在PoC生成（最高18.0%成功率）和漏洞修复（最高34.0%成功率）任务中的表现，凸显了当前LLM代理在字节级内存操作和复杂代码库推理方面的能力缺陷。

常用场景

经典使用场景

SEC-bench作为首个专注于真实世界软件安全任务的自动化基准测试框架，其经典应用场景在于评估大型语言模型（LLM）代理在漏洞修复与概念验证（PoC）生成两大核心安全任务中的表现。该数据集通过构建包含可复现漏洞的代码仓库、隔离环境及黄金补丁的标准化测试单元，为研究社区提供了衡量LLM代理在复杂安全工程场景下推理能力、代码理解与漏洞修复有效性的统一平台。其多智能体架构自动完成环境配置、漏洞复现和补丁验证的全流程，显著降低了传统安全评估中的人工干预成本。

解决学术问题

SEC-bench解决了现有安全基准测试中三个关键学术问题：其一，突破了合成数据或简化漏洞样本的局限性，通过真实CVE实例捕捉安全工程师面临的复杂性和模糊性；其二，创新性地引入基于内存安全检测工具（如AddressSanitizer）的自动化验证机制，建立了漏洞复现与补丁验证的客观标准；其三，通过构建包含200个已验证CVE实例的高质量数据集（单实例成本仅0.87美元），为LLM安全能力研究提供了可扩展的评估基础设施。这些突破填补了安全工程领域缺乏系统性、自动化评估工具的空白。

衍生相关工作

SEC-bench催生了多个重要研究方向：基于其多智能体框架的CODEACT等单智能体优化方案验证了协同策略的优越性（性能提升85.7%）；SWE-agent等代码代理通过适配其安全任务接口显著增强环境交互能力；CVE-BENCH等后续工作借鉴其自动构建方法论扩展至Web应用漏洞领域。该数据集还启发了对LLM二进制级漏洞理解（如字节操作payload生成）的专项研究，推动形成DARPA AIxCC等竞赛的安全评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集