five

SecVulEval

收藏
Hugging Face2025-05-17 更新2025-05-18 收录
下载链接:
https://huggingface.co/datasets/arag0rn/SecVulEval
下载链接
链接失效反馈
官方服务:
资源简介:
SecVulEval是一个包含真实世界C/C++漏洞的数据集。该数据集通过从NVD收集C/C++漏洞并包含语句级别的漏洞信息、漏洞函数的上下文信息以及CVE、CWE、提交信息等元数据而构建。数据集包含了漏洞函数和非漏洞函数的样本。
创建时间:
2025-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
在软件安全领域,SecVulEval数据集的构建采用了系统化的方法。该数据集从美国国家漏洞数据库(NVD)中收集真实世界的C/C++漏洞信息,并通过对应的Git仓库获取相关补丁。构建过程中,每个漏洞函数与其修复版本被精确配对,同时提取了语句级别的变更信息,包括修改的代码行和具体语句。这种基于实际漏洞和补丁的构建方式,确保了数据来源的可靠性和现实代表性。
特点
SecVulEval数据集展现出多维度特征。它包含25,440个函数样本,其中43.23%为易受攻击函数,56.77%为安全函数,形成了均衡的二元分类结构。数据集提供了丰富的元数据,包括CVE和CWE标识符、提交信息和函数上下文。特别值得注意的是,数据集提供了语句级别的漏洞标注和五种类型的上下文信息,这些特征使得该数据集能够支持细粒度的上下文感知漏洞检测研究。
使用方法
该数据集主要应用于软件漏洞检测模型的训练与评估。研究人员可以利用其提供的函数样本构建二元分类器,区分易受攻击代码与安全代码。通过changed_lines和changed_statements字段,可以实现语句级别的漏洞定位分析。数据集中的fixed_func_idx字段便于将漏洞函数与其修复版本进行配对比较,而丰富的上下文信息则为开发上下文感知的检测算法提供了重要支撑。
背景与挑战
背景概述
随着软件安全问题的日益突出,漏洞检测技术逐渐成为信息安全领域的研究热点。SecVulEval数据集作为专注于C/C++语言漏洞的实证研究资源,通过整合美国国家漏洞数据库(NVD)的公开漏洞信息与对应代码仓库的修复记录,构建了包含25,440个函数样本的标准化语料。该数据集不仅标注了函数级别的漏洞属性,还提供了语句级修改记录与多维上下文信息,为智能漏洞检测模型的训练与评估奠定了数据基础。其结构化特征设计融合了CVE/CWE标准化分类体系,显著提升了漏洞模式分析的规范性与可复现性。
当前挑战
在漏洞检测领域,模型需克服代码语义理解与漏洞模式泛化两大核心难题。SecVulEval构建过程中面临多重挑战:其一,原始漏洞数据分散于异构代码仓库,需通过复杂的数据管道实现CVE条目与具体代码修改的精准映射;其二,语句级漏洞标注要求对代码变更进行细粒度解析,涉及语法树分析与变更语句的边界判定;其三,上下文信息的结构化提取需平衡代码符号的完整性与数据噪声控制,这对LLM生成质量提出较高要求。此外,数据集中漏洞与非漏洞样本的比例失衡可能影响模型训练的稳定性。
常用场景
经典使用场景
在软件安全研究领域,SecVulEval数据集为漏洞检测模型的训练与评估提供了重要支撑。该数据集通过整合真实世界的C/C++漏洞样本,包含25440个函数实例,其中43.23%为漏洞函数,56.77%为正常函数,这种平衡的分布使得机器学习模型能够有效学习漏洞特征。特别值得注意的是,数据集提供的语句级漏洞信息和上下文信息,为细粒度的上下文感知检测创造了条件。
衍生相关工作
基于SecVulEval数据集已衍生出多项重要研究工作。在深度学习领域,研究人员利用其语句级漏洞信息开发了基于图神经网络的漏洞检测模型。该数据集还促进了上下文感知检测方法的发展,通过分析函数执行环境、外部函数调用等上下文特征,提升了检测精度。此外,数据集中的CVE-CWE映射关系为漏洞模式分析研究提供了丰富素材。
数据集最近研究
最新研究方向
在软件安全分析领域,SecVulEval数据集凭借其细粒度的语句级漏洞标注与多维上下文信息,正推动智能漏洞检测技术向深度语义理解方向发展。当前研究聚焦于结合大语言模型的代码表征能力,通过解析函数执行环境、外部依赖等上下文特征,构建动态漏洞传播图谱。该数据集通过关联CVE/CWE标准漏洞库与真实代码修复记录,为量化评估模型在零日漏洞发现、跨项目泛化等场景的性能提供了基准支撑,显著提升了自动化安全审计系统的预警准确率与可解释性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作