PrimeVul

Hugging Face2025-04-04 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/starsofchance/PrimeVul

下载链接

链接失效反馈

官方服务：

资源简介：

PrimeVul数据集是一个为C/C++代码漏洞检测而设计的数据集，用于在现实场景下训练和评估代码语言模型。该数据集提供了预分割的训练集、验证集和测试集，包含了大约7000个漏洞函数和229000个良性函数，覆盖了超过140个常见弱点枚举（CWEs）。数据集注重准确的标签、最小的数据污染和丰富的元数据，以支持高级分析。各个数据集分割部分包括源代码、二进制标签以及提交、漏洞和文件级别的元数据。

The PrimeVul dataset is a specialized dataset designed for C/C++ code vulnerability detection, which is used to train and evaluate code language models in real-world scenarios. This dataset provides pre-split training, validation, and test sets, containing approximately 7,000 vulnerable functions and 229,000 benign functions, covering more than 140 Common Weakness Enumerations (CWEs). The dataset prioritizes accurate labeling, minimal data contamination, and rich metadata to support advanced analysis. Each dataset split includes source code, binary labels, as well as metadata at the commit, vulnerability, and file levels.

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在软件安全领域，漏洞检测一直是保障代码质量的关键环节。PrimeVul数据集通过整合现有漏洞检测数据集，采用创新的标签重构技术构建而成。研究人员从真实项目中提取了约7000个存在漏洞的函数和229000个安全函数，覆盖140多种常见弱点枚举类型。为确保数据质量，团队严格遵循时间顺序划分数据集，避免数据污染，并为每个样本附加了完整的元数据，包括提交记录、漏洞描述及文件上下文信息。

特点

PrimeVul数据集在漏洞检测领域展现出独特的学术价值。其核心优势在于采用二元标签系统精准标注每个函数的安全性，并配备多维元数据支持深度分析。数据集特别设计了包含漏洞代码与其修补版本配对的测试集，可有效评估模型对细微代码变化的敏感度。超过23万样本量的数据规模，配合提交URL、CVE描述等丰富的上下文信息，为研究代码语言模型在真实场景下的漏洞检测能力提供了理想基准。

使用方法

该数据集为预分割格式，研究者可直接使用训练集开发漏洞检测模型，通过验证集进行超参数调优。测试集特别适合评估模型性能，其配对的漏洞-修补样本能有效检验模型识别细微安全缺陷的能力。完整元数据支持多种分析维度，如结合提交信息研究漏洞引入模式，或利用文件上下文增强模型理解。使用时应遵循原始论文的评估协议，注意保持训练集与测试集的时间顺序以避免数据泄露。

背景与挑战

背景概述

PrimeVul数据集由Yangruibo Ding等研究人员于2024年推出，旨在为C/C++代码漏洞检测领域提供高质量的基准数据。该数据集由加州大学伯克利分校等机构的团队联合构建，核心研究聚焦于评估代码语言模型在真实场景下的漏洞检测能力。作为当前最全面的漏洞检测资源之一，PrimeVul整合了来自现实项目的23.6万条函数样本，涵盖140余种常见弱点枚举类型，其创新性的标签生成技术和严格的时序划分策略，显著提升了深度学习模型在软件安全领域的应用可靠性。数据集通过引入完整的提交元数据、漏洞描述及文件级上下文，为可解释性研究提供了新的可能性。

当前挑战

在领域问题层面，PrimeVul致力于解决传统静态分析工具对复杂代码模式识别不足的难题，特别是针对跨函数边界的数据流漏洞和逻辑缺陷的检测挑战。其测试集包含的配对样本（漏洞代码与修复补丁）要求模型具备细粒度的语义理解能力。数据构建过程中，研究团队面临标签准确性与覆盖率之间的平衡问题，需通过多轮人工验证确保7,000个漏洞样本的标注质量。此外，从异构数据源整合元数据时，需处理版本控制系统中的信息缺失问题，并设计防泄漏的时序划分方案以避免模型评估偏差。这些挑战使得数据集构建过程涉及复杂的软件工程与机器学习交叉学科知识。

常用场景

经典使用场景

在软件安全领域，PrimeVul数据集为基于深度学习的漏洞检测模型提供了标准化的评估基准。该数据集通过精心构建的训练、验证和测试集，支持研究者对代码语言模型进行端到端的训练和测试。其独特的配对样本设计（漏洞代码与其修复版本）特别适合评估模型对细微代码差异的敏感性，这在识别潜在安全威胁时至关重要。

衍生相关工作

基于PrimeVul数据集的创新研究已催生多项重要成果，包括基于Transformer的漏洞检测框架VulDetect和跨项目漏洞预测模型CrossVul。这些工作通过利用数据集提供的完整代码上下文和精确标注，在识别复杂漏洞模式方面取得了突破性进展，推动了整个软件安全分析领域的方法论革新。

数据集最近研究