DiverseVul

Name: DiverseVul
Creator: 马里兰大学
Published: 2023-08-09 09:21:50
License: 暂无描述

arXiv2023-08-09 更新2024-06-21 收录

下载链接：

https://github.com/wagner-group/diversevul

下载链接

链接失效反馈

官方服务：

资源简介：

DiverseVul是由马里兰大学开发的一个新的易受攻击源代码数据集，专门用于基于深度学习的漏洞检测。该数据集通过爬取安全问题网站，提取与漏洞修复相关的提交和源代码，包含18,945个易受攻击的函数和330,492个非易受攻击的函数，覆盖150个CWE。DiverseVul比以往任何数据集都更加多样化和全面，覆盖了295个新项目，旨在通过提供大量高质量的训练数据，推动深度学习在软件漏洞检测领域的应用和发展。

DiverseVul is a novel vulnerable source code dataset developed by the University of Maryland, specifically designed for deep learning-based vulnerability detection. This dataset is constructed by crawling security issue websites to extract commits and source code associated with vulnerability fixes, containing 18,945 vulnerable functions and 330,492 non-vulnerable functions, and covering 150 CWE categories. Compared with all previous datasets, DiverseVul is more diverse and comprehensive, spanning 295 new projects. It aims to promote the application and development of deep learning in the field of software vulnerability detection by providing a large amount of high-quality training data.

提供机构：

马里兰大学

创建时间：

2023-04-02

搜集汇总

数据集介绍

构建方式

DiverseVul数据集的构建通过爬取安全问题网站，提取与漏洞修复相关的提交和源代码，从而精心策划而成。具体而言，研究团队从7,514次提交中提取了18,945个易受攻击的函数和330,492个非易受攻击的函数，涵盖了150个常见弱点枚举（CWEs）。此数据集的规模和多样性显著超越了以往的同类数据集，为深度学习在漏洞检测中的应用提供了更为丰富的资源。

特点

DiverseVul数据集的主要特点在于其广泛的项目覆盖和多样化的漏洞类型。该数据集包含了295个新项目，这些项目在以往的数据集中未被涵盖，极大地增强了数据集的多样性和代表性。此外，数据集中的漏洞函数和非漏洞函数的数量均显著增加，为模型训练提供了更为均衡的数据支持。

使用方法

DiverseVul数据集适用于多种深度学习模型的训练和评估，特别是在软件漏洞检测领域。研究者可以使用该数据集来训练和验证图神经网络（GNN）、大型语言模型（LLM）等多种架构。通过结合以往的数据集，研究者可以进一步分析不同模型在处理不同类型漏洞时的表现，从而推动漏洞检测技术的发展。

背景与挑战

背景概述

在软件安全领域，检测软件漏洞是防止网络犯罪和经济损失的关键。传统的静态和动态漏洞检测技术存在诸多不足，而深度学习在图像和自然语言处理中的成功引发了对其在漏洞检测中应用的探索。DiverseVul数据集由马里兰大学、加州大学伯克利分校和谷歌DeepMind的研究人员于2023年创建，旨在通过深度学习方法提升漏洞检测能力。该数据集通过爬取安全问题网站、提取漏洞修复提交和源代码，涵盖了18,945个易受攻击的函数和330,492个非易受攻击的函数，涉及150个常见弱点枚举（CWEs）和7,514个提交，覆盖的项目数量超过以往所有数据集的总和。DiverseVul的发布为研究深度学习在漏洞检测中的应用提供了丰富的资源，并揭示了该领域的新挑战和研究方向。

当前挑战

DiverseVul数据集在构建和应用过程中面临多项挑战。首先，数据集的构建涉及从大量安全问题网站中提取和验证漏洞修复提交，这一过程需要高度自动化和精确的标签技术。其次，尽管数据集规模庞大且多样，但深度学习模型在漏洞检测中的表现仍不尽如人意，主要表现为高误报率、低F1分数以及难以检测复杂CWEs。此外，模型在未见过的项目上的泛化能力较差，显示出深度学习在实际部署中的局限性。最后，数据集中的标签噪声问题也是一个重要挑战，尽管采用了先进的标签方法，但仍存在一定比例的错误标签，这可能影响模型的训练和评估效果。

常用场景

经典使用场景

DiverseVul数据集在深度学习驱动的漏洞检测中展现了其经典应用场景。该数据集通过爬取安全问题网站，提取漏洞修复提交和相应的源代码，构建了一个包含18,945个易受攻击函数和330,492个非易受攻击函数的大型数据集。研究者利用此数据集训练了11种不同架构的深度学习模型，涵盖了图神经网络（GNN）、RoBERTa、GPT-2和T5等模型家族。实验结果表明，大型语言模型（LLMs）在处理大规模数据时显著优于传统的图神经网络，特别是在检测未见过的项目时展现出更强的泛化能力。

衍生相关工作

DiverseVul数据集的发布催生了一系列相关研究工作。首先，许多研究者利用该数据集进行了深度学习模型在漏洞检测中的性能评估，特别是大型语言模型与传统图神经网络的对比研究。其次，基于DiverseVul的研究揭示了代码特定预训练任务的重要性，推动了新的预训练方法和模型的开发。此外，该数据集还促进了关于模型泛化能力的新研究，特别是在处理未见过的项目时，如何提升模型的预测准确性成为一个热门话题。这些研究不仅提升了漏洞检测的准确性，也为未来的软件安全研究提供了新的方向。

数据集最近研究