BenchVul, TitanVul

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/yikunli/TitanVul-BenchVul

下载链接

链接失效反馈

官方服务：

资源简介：

BenchVul是一个手动筛选的测试数据集，覆盖了MITRE Top 25最危险的CWEs，包含每个弱点50个有漏洞的函数及其修复，总共超过1000个验证过的有漏洞的函数。TitanVul是一个大规模、高质量的训练数据集，包含35,045个函数，通过聚合七个公共来源，并使用严格的去重和验证来确保高质量。数据集旨在解决当前漏洞数据集存在的标签不准确、数据重复和关键CWE类型覆盖率低等问题。

BenchVul is a manually curated test dataset covering the MITRE Top 25 most dangerous CWEs, with 50 vulnerable functions and their corresponding fixes for each weakness, totaling over 1,000 validated vulnerable functions. TitanVul is a large-scale, high-quality training dataset consisting of 35,045 functions. It is constructed by aggregating seven public sources, with strict deduplication and validation procedures applied to ensure its high quality. These datasets aim to address the prevalent issues in existing vulnerability datasets, including inaccurate labels, data duplication, and insufficient coverage of critical CWE categories.

提供机构：

新加坡管理大学新加坡, 新加坡

创建时间：

2025-07-29

搜集汇总

数据集介绍

构建方式

BenchVul和TitanVul数据集的构建采用了多阶段严格验证的方法。BenchVul通过整合七个公开漏洞数据集，进行跨数据集去重和CWE标注标准化，并采用LLM初步过滤非安全相关代码变更。为确保覆盖MITRE Top 25危险CWE类型，采用多智能体LLM框架RVG生成稀缺漏洞样本，最终通过七名研究者的手动验证达到92%正确率。TitanVul则通过聚合七大数据源，运用审计-批评-共识的多智能体LLM框架实现自动化验证，从初始305,692个函数中筛选出35,045个高质量漏洞修复对，并严格避免与BenchVul的数据重叠。

特点

这两个数据集在漏洞检测领域具有显著优势：BenchVul作为首个全面覆盖MITRE Top 25 CWE的手工验证基准，每个弱点类型包含50个漏洞函数及对应修复，共计1,000余个样本，其平衡性和92%的标注准确率解决了现有数据集CWE覆盖不均的问题。TitanVul则以35,045个经过多智能体验证的函数级样本成为最大规模高质量训练集，其独特的RVG框架能生成上下文感知的合成漏洞，特别针对现实数据中稀缺的高危CWE类型。实验表明，基于TitanVul训练的模型在BenchVul上准确率提升31%，突破性地弥合了模型自测试与真实泛化能力间的差距。

使用方法

BenchVul专为评估漏洞检测模型的泛化能力设计，建议作为独立测试基准使用，避免与训练数据存在重叠。TitanVul适用于训练深度学习模型，其多语言覆盖和严格验证的特性支持跨语言漏洞检测研究。研究者可采用RVG框架定向增强特定CWE类型的训练数据，实验显示合成数据能使模型在BenchVul上的准确率提升14%。使用时需注意：BenchVul的C/C++子集可用于语言特异性评估；TitanVul应配合分层抽样（70%/15%/15%）划分训练/验证/测试集；所有模型需在独立环境验证以避免数据泄露。

背景与挑战

背景概述

BenchVul和TitanVul是由新加坡管理大学等机构的研究团队于2025年提出的创新性漏洞检测数据集，旨在解决现有漏洞数据集存在的标签不准确、重复率高以及关键CWE类型覆盖不足等问题。BenchVul作为首个全面覆盖MITRE Top 25最危险CWE弱点的手工验证基准测试集，包含每个CWE类别50个已验证的漏洞函数及其修复方案，共计超过1000个样本。TitanVul则是通过聚合七个公开数据源并应用新型多智能体LLM验证框架构建的大规模高质量训练数据集，包含35,045个经过严格去重和验证的函数级漏洞-修复对。这两个数据集的建立标志着漏洞检测研究从依赖有缺陷的自我测试评估向基于独立基准的真实泛化能力验证的重要转变。

当前挑战

该领域面临三大核心挑战：首先，现有漏洞数据集存在显著的泛化鸿沟，模型在自我测试中表现优异但在独立数据上性能下降高达40.6%，暴露了过度拟合数据集特定伪相关性的问题；其次，大规模训练数据质量低下，常见漏洞数据集包含20-71%的标签错误率以及大量无关代码变更，且多数漏洞缺乏函数级的自包含性；第三，关键CWE类型样本稀缺，MITRE Top 25中最危险的漏洞类型在现有数据集中代表性严重不足。在构建过程中，研究团队需要克服跨数据集去重、CWE标签标准化、LLM辅助过滤的可靠性验证，以及通过RVG框架合成上下文感知漏洞样本等技术挑战。

常用场景

经典使用场景

在软件工程和安全研究领域，BenchVul和TitanVul数据集为自动化漏洞检测模型的训练与评估提供了标准化解决方案。BenchVul作为覆盖MITRE Top 25最危险CWE弱点的基准测试集，常被用于验证模型在真实场景中的泛化能力，避免传统自测试导致的性能虚高问题。TitanVul则凭借其大规模高质量的训练样本，成为训练鲁棒性漏洞检测模型的首选数据源，尤其适用于解决跨数据集性能下降的学术难题。

解决学术问题

这两个数据集有效解决了当前漏洞检测研究中的三大核心问题：首先，通过人工验证和LLM多智能体框架消除了标签错误（BenchVul正确率达92%）和样本重复（TitanVul去重后保留35,045个函数），显著提升了数据可靠性；其次，RVG框架合成的上下文感知漏洞样本弥补了关键CWE类型的数据稀缺性，使模型对CWE-798等罕见漏洞的检测准确率提升38%；最后，独立测试集设计揭示了传统自测试评估的局限性，如UniXcoder在BigVul上自测试准确率0.776降至BenchVul测试的0.519，为学术界提供了更严谨的评估范式。

衍生相关工作

该数据集催生了多个重要研究方向：CleanVul采用类似的LLM过滤机制提升数据纯度；VulGen利用模式挖掘生成更逼真的漏洞变体；DeepSeek-Coder等大模型基于TitanVul验证了代码表征学习的有效性。在评估方法层面，VulDetectBench等研究借鉴BenchVul的跨数据集测试框架，建立了更全面的漏洞检测能力评估体系。这些衍生工作共同推动了ML4VD领域从粗放式数据使用向质量导向的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集