cvevc_candidates

Hugging Face2025-08-20 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/fals3/cvevc_candidates

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了与代码漏洞相关的信息，例如漏洞编号、描述、代码仓库、提交ID、提交信息、代码差异比较、标签和排名。数据集分为三个配置：PatchFinder_top10、PatchFinder_top100和random，分别用于不同的研究目的。PatchFinder_top10和PatchFinder_top100的测试集包含了大量的漏洞数据，而random配置包含了训练集、测试集和验证集，可用于模型的训练和验证。

创建时间：

2025-08-17

搜集汇总

数据集介绍

构建方式

在软件安全领域，漏洞补丁的识别对维护系统完整性至关重要。cvevc_candidates数据集通过整合公开的CVE漏洞信息与对应的代码仓库提交记录，系统性地采集了补丁候选数据。每个样本关联特定CVE编号，包含仓库地址、提交哈希、差异代码块及人工标注的标签，构建过程注重数据来源的可靠性与标注一致性。

特点

该数据集涵盖多种配置模式，包括基于排名筛选的PatchFinder_top10/top100和随机采样的random系列，提供了不同粒度与规模的测试环境。特征字段设计全面，涵盖漏洞描述、提交元数据与代码差异，支持二进制分类任务。数据规模从数万至数十万样本不等，兼顾效率与代表性，适用于机器学习模型的多维度评估。

使用方法

研究者可通过HuggingFace数据集库直接加载指定配置，如PatchFinder_top10或random_100，获取标准化的测试分割数据。每个样本包含结构化字段，可直接用于训练或评估补丁识别模型。差异代码（diff字段）与标签（label字段）的组合支持有监督学习，而提交信息与仓库元数据为多模态分析提供上下文支撑。

背景与挑战

背景概述

在软件安全工程领域，CVE漏洞补丁的自动识别一直是保障软件供应链安全的核心课题。cvevc_candidates数据集由网络安全研究团队构建，专注于解决漏洞修复提交的智能检测问题。该数据集通过整合CVE编号、代码仓库信息、提交差异等多维特征，为机器学习模型提供了丰富的训练样本，显著推动了自动化漏洞修复分析技术的发展，对提升开源软件生态的安全性具有重要价值。

当前挑战

该数据集旨在解决漏洞修复提交的精准识别挑战，包括从海量代码提交中区分安全补丁与普通更新的复杂性。构建过程中面临标注一致性难题，需人工验证每个提交与CVE的关联性；同时处理代码差异的异构性，如不同编程语言的语法差异和提交格式多样性，这些因素均增加了数据清洗和标准化的难度。

常用场景

经典使用场景

在软件安全漏洞研究领域，cvevc_candidates数据集为自动化漏洞补丁识别提供了关键实验基础。该数据集通过整合CVE编号、代码仓库信息及差异比对文件，构建了包含标记样本的大规模测试集，支持机器学习模型对漏洞修复提交进行精准分类与排序，显著提升了漏洞匹配研究的可重复性与对比基准一致性。

实际应用

实际应用中，该数据集被集成到持续集成流水线与静态分析工具链中，协助开发团队快速定位潜在的安全修复提交。安全厂商可基于其构建自动化漏洞追踪系统，实现对开源项目漏洞修复状态的实时监控，大幅降低人工审计成本，提升企业级软件供应链的风险管控能力。

衍生相关工作

基于该数据集衍生的经典工作包括基于深度学习的补丁匹配算法PatchNet、融合多模态特征的漏洞提交检索框架VulHunter等。这些研究通过引入注意力机制与图神经网络，显著提升了漏洞关联检测的准确率，后续更推动了如CommitBERT等代码预训练模型在安全领域的适配与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集