BenchVul和TitanVul

github2025-07-31 更新2025-08-01 收录

下载链接：

https://github.com/yikun-li/TitanVul-BenchVul

下载链接

链接失效反馈

官方服务：

资源简介：

BenchVul是一个全面、手动验证的Top 25最危险CWE基准测试。TitanVul是一个大规模、严格验证的漏洞数据集，通过多代理LLM验证和公共数据源聚合构建。

BenchVul is a comprehensive, manually validated benchmark dataset for the Top 25 Most Dangerous CWEs. TitanVul is a large-scale, rigorously validated vulnerability dataset constructed via multi-agent LLM validation and aggregation of public data sources.

创建时间：

2025-07-29

原始信息汇总

BenchVul与TitanVul数据集概述

📜 数据集简介

BenchVul：针对Top 25最危险CWE的手动验证基准数据集
TitanVul：大规模、严格验证的漏洞数据集，通过多智能体LLM框架构建
RVG框架：支持生成合成漏洞数据，用于罕见CWE类型的补充

📚 数据集详情

BenchVul基准

数据平衡性：每个CWE包含50个漏洞样本+50个修复样本
覆盖范围：精炼的Top 25最危险CWE（移除模糊/重叠类别）
质量保证：专家人工验证正确率达92%
用途：模型泛化能力的可靠独立评估

TitanVul数据集

数据规模：35,045个漏洞-修复函数对
构建方法：整合7个公共数据集，经过去重和多智能体LLM验证
用途：为开发通用模型提供高质量训练数据

🏗️ 工具框架

RVG漏洞生成框架

核心架构：四智能体协作系统（上下文建模、漏洞实现、安全审计、安全评审）
功能特点：
- 支持多编程语言和CWE类型
- 生成真实应用场景和攻击向量

漏洞修复检测流程

分析体系：三智能体系统（审计员、评论员、共识机制）
评分机制：0-3分的修复可能性量化评估

📝 引用信息

bibtex @article{li2025titanvul, title={Out of Distribution, Out of Luck...}, author={Li, Yikun et al.}, journal={arXiv preprint arXiv:2507.21817}, year={2025} }

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，BenchVul和TitanVul数据集的构建体现了严谨的学术方法论。BenchVul采用专家人工验证方式，针对25种最危险CWE弱点构建平衡样本集，每个CWE类型包含50个漏洞样本和50个修复样本，正确率高达92%。TitanVul则通过多智能体LLM验证框架整合七个公开数据集，经过严格去重和验证，形成包含35,045个漏洞-修复函数对的大规模数据集。创新性的RVG框架采用四智能体协作系统，实现多语言环境下各类CWE漏洞的合成生成。

特点

这两个数据集在安全漏洞检测领域具有显著优势。BenchVul以其精准的CWE分类和平衡的样本分布著称，覆盖了经过优化的25种最关键安全弱点类型，为模型评估提供可靠基准。TitanVul则凭借其大规模、高质量的样本特性脱颖而出，通过多智能体验证机制确保数据准确性。数据集特别强调对分布外泛化能力的评估，其合成生成框架能够有效补充罕见CWE类型的样本不足问题，为机器学习模型提供更全面的训练和测试环境。

使用方法

数据集的使用遵循标准化研究流程。BenchVul专为模型评估设计，可直接用于测试模型在Top25 CWE上的检测性能。TitanVul作为训练集使用时，建议配合RVG框架生成的合成数据以增强模型泛化能力。配套提供的多智能体检测管道支持通过命令行接口进行漏洞修复分析，用户可灵活选择不同LLM提供商和模型版本。研究复现时，可参照论文提供的完整实验流程，利用数据集的分层结构和详细文档说明开展可重复的安全检测研究。

背景与挑战

背景概述

BenchVul和TitanVul数据集由Yikun Li等研究人员于2025年提出，旨在为漏洞检测领域提供高质量的评估与训练资源。该研究团队来自多个知名学术机构，致力于解决当前漏洞检测模型在Top 25最危险通用弱点枚举（CWE）上的泛化能力不足问题。BenchVul作为手动验证的基准数据集，覆盖了精炼后的Top 25 CWE，每个CWE包含50个漏洞样本和50个修复样本，专家验证正确率达92%。TitanVul则通过多智能体LLM框架整合了七个公开数据集，包含35,045个漏洞-修复函数对，为模型开发提供了大规模高质量训练数据。这些资源显著提升了漏洞检测研究的可重复性和可靠性，推动了该领域向更系统化的方向发展。

当前挑战

在漏洞检测领域，现有数据集普遍面临样本分布不均、标注质量参差等挑战，导致模型对罕见CWE类型的检测性能不佳。BenchVul和TitanVul的构建过程中，研究团队需解决多重技术难题：一是Top 25 CWE中部分类别存在语义模糊和重叠，需通过专家知识进行重新定义与分类；二是多源数据整合时面临格式异构和重复样本问题，需设计严格的去重与验证流程；三是合成数据生成需平衡真实性与多样性，为此开发的RVG框架采用四智能体协作系统模拟完整漏洞生命周期。这些挑战的突破为构建具有高泛化能力的漏洞检测模型奠定了数据基础。

常用场景

经典使用场景

在软件安全领域，BenchVul和TitanVul数据集为机器学习模型的训练与评估提供了高质量资源。BenchVul专注于Top 25最危险CWE漏洞的平衡样本，每个CWE包含50个漏洞和50个修复样本，适用于模型泛化能力的独立评估。TitanVul则通过多智能体LLM框架整合了35,045个漏洞修复函数对，为开发通用模型提供了大规模训练数据。这些数据集在漏洞检测、代码修复分析等任务中展现了卓越的适用性。

衍生相关工作

该数据集催生了多个创新研究方向。基于RVG框架的《Adversarial Vulnerability Synthesis》提出了对抗性样本生成方法，增强了模型鲁棒性；《Cross-CWE Transfer Learning》利用TitanVul实现了跨漏洞类型的知识迁移。MITRE公司进一步扩展BenchVul架构，开发了面向新兴硬件漏洞的评估基准，推动了物联网安全研究的发展。

数据集最近研究