cvevc_candidates
收藏Hugging Face2025-08-20 更新2025-08-22 收录
下载链接:
https://huggingface.co/datasets/fals3/cvevc_candidates
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了与代码漏洞相关的信息,例如漏洞编号、描述、代码仓库、提交ID、提交信息、代码差异比较、标签和排名。数据集分为三个配置:PatchFinder_top10、PatchFinder_top100和random,分别用于不同的研究目的。PatchFinder_top10和PatchFinder_top100的测试集包含了大量的漏洞数据,而random配置包含了训练集、测试集和验证集,可用于模型的训练和验证。
创建时间:
2025-08-17
搜集汇总
数据集介绍

构建方式
在软件安全领域,漏洞补丁的识别对维护系统完整性至关重要。cvevc_candidates数据集通过整合公开的CVE漏洞信息与对应的代码仓库提交记录,系统性地采集了补丁候选数据。每个样本关联特定CVE编号,包含仓库地址、提交哈希、差异代码块及人工标注的标签,构建过程注重数据来源的可靠性与标注一致性。
特点
该数据集涵盖多种配置模式,包括基于排名筛选的PatchFinder_top10/top100和随机采样的random系列,提供了不同粒度与规模的测试环境。特征字段设计全面,涵盖漏洞描述、提交元数据与代码差异,支持二进制分类任务。数据规模从数万至数十万样本不等,兼顾效率与代表性,适用于机器学习模型的多维度评估。
使用方法
研究者可通过HuggingFace数据集库直接加载指定配置,如PatchFinder_top10或random_100,获取标准化的测试分割数据。每个样本包含结构化字段,可直接用于训练或评估补丁识别模型。差异代码(diff字段)与标签(label字段)的组合支持有监督学习,而提交信息与仓库元数据为多模态分析提供上下文支撑。
背景与挑战
背景概述
在软件安全工程领域,CVE漏洞补丁的自动识别一直是保障软件供应链安全的核心课题。cvevc_candidates数据集由网络安全研究团队构建,专注于解决漏洞修复提交的智能检测问题。该数据集通过整合CVE编号、代码仓库信息、提交差异等多维特征,为机器学习模型提供了丰富的训练样本,显著推动了自动化漏洞修复分析技术的发展,对提升开源软件生态的安全性具有重要价值。
当前挑战
该数据集旨在解决漏洞修复提交的精准识别挑战,包括从海量代码提交中区分安全补丁与普通更新的复杂性。构建过程中面临标注一致性难题,需人工验证每个提交与CVE的关联性;同时处理代码差异的异构性,如不同编程语言的语法差异和提交格式多样性,这些因素均增加了数据清洗和标准化的难度。
常用场景
经典使用场景
在软件安全漏洞研究领域,cvevc_candidates数据集为自动化漏洞补丁识别提供了关键实验基础。该数据集通过整合CVE编号、代码仓库信息及差异比对文件,构建了包含标记样本的大规模测试集,支持机器学习模型对漏洞修复提交进行精准分类与排序,显著提升了漏洞匹配研究的可重复性与对比基准一致性。
实际应用
实际应用中,该数据集被集成到持续集成流水线与静态分析工具链中,协助开发团队快速定位潜在的安全修复提交。安全厂商可基于其构建自动化漏洞追踪系统,实现对开源项目漏洞修复状态的实时监控,大幅降低人工审计成本,提升企业级软件供应链的风险管控能力。
衍生相关工作
基于该数据集衍生的经典工作包括基于深度学习的补丁匹配算法PatchNet、融合多模态特征的漏洞提交检索框架VulHunter等。这些研究通过引入注意力机制与图神经网络,显著提升了漏洞关联检测的准确率,后续更推动了如CommitBERT等代码预训练模型在安全领域的适配与优化。
以上内容由遇见数据集搜集并总结生成



