five

DiverseVul|漏洞检测数据集|深度学习数据集

收藏
arXiv2023-08-09 更新2024-06-21 收录
漏洞检测
深度学习
下载链接:
https://github.com/wagner-group/diversevul
下载链接
链接失效反馈
资源简介:
DiverseVul是由马里兰大学开发的一个新的易受攻击源代码数据集,专门用于基于深度学习的漏洞检测。该数据集通过爬取安全问题网站,提取与漏洞修复相关的提交和源代码,包含18,945个易受攻击的函数和330,492个非易受攻击的函数,覆盖150个CWE。DiverseVul比以往任何数据集都更加多样化和全面,覆盖了295个新项目,旨在通过提供大量高质量的训练数据,推动深度学习在软件漏洞检测领域的应用和发展。
提供机构:
马里兰大学
创建时间:
2023-04-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
DiverseVul数据集的构建通过爬取安全问题网站,提取与漏洞修复相关的提交和源代码,从而精心策划而成。具体而言,研究团队从7,514次提交中提取了18,945个易受攻击的函数和330,492个非易受攻击的函数,涵盖了150个常见弱点枚举(CWEs)。此数据集的规模和多样性显著超越了以往的同类数据集,为深度学习在漏洞检测中的应用提供了更为丰富的资源。
特点
DiverseVul数据集的主要特点在于其广泛的项目覆盖和多样化的漏洞类型。该数据集包含了295个新项目,这些项目在以往的数据集中未被涵盖,极大地增强了数据集的多样性和代表性。此外,数据集中的漏洞函数和非漏洞函数的数量均显著增加,为模型训练提供了更为均衡的数据支持。
使用方法
DiverseVul数据集适用于多种深度学习模型的训练和评估,特别是在软件漏洞检测领域。研究者可以使用该数据集来训练和验证图神经网络(GNN)、大型语言模型(LLM)等多种架构。通过结合以往的数据集,研究者可以进一步分析不同模型在处理不同类型漏洞时的表现,从而推动漏洞检测技术的发展。
背景与挑战
背景概述
在软件安全领域,检测软件漏洞是防止网络犯罪和经济损失的关键。传统的静态和动态漏洞检测技术存在诸多不足,而深度学习在图像和自然语言处理中的成功引发了对其在漏洞检测中应用的探索。DiverseVul数据集由马里兰大学、加州大学伯克利分校和谷歌DeepMind的研究人员于2023年创建,旨在通过深度学习方法提升漏洞检测能力。该数据集通过爬取安全问题网站、提取漏洞修复提交和源代码,涵盖了18,945个易受攻击的函数和330,492个非易受攻击的函数,涉及150个常见弱点枚举(CWEs)和7,514个提交,覆盖的项目数量超过以往所有数据集的总和。DiverseVul的发布为研究深度学习在漏洞检测中的应用提供了丰富的资源,并揭示了该领域的新挑战和研究方向。
当前挑战
DiverseVul数据集在构建和应用过程中面临多项挑战。首先,数据集的构建涉及从大量安全问题网站中提取和验证漏洞修复提交,这一过程需要高度自动化和精确的标签技术。其次,尽管数据集规模庞大且多样,但深度学习模型在漏洞检测中的表现仍不尽如人意,主要表现为高误报率、低F1分数以及难以检测复杂CWEs。此外,模型在未见过的项目上的泛化能力较差,显示出深度学习在实际部署中的局限性。最后,数据集中的标签噪声问题也是一个重要挑战,尽管采用了先进的标签方法,但仍存在一定比例的错误标签,这可能影响模型的训练和评估效果。
常用场景
经典使用场景
DiverseVul数据集在深度学习驱动的漏洞检测中展现了其经典应用场景。该数据集通过爬取安全问题网站,提取漏洞修复提交和相应的源代码,构建了一个包含18,945个易受攻击函数和330,492个非易受攻击函数的大型数据集。研究者利用此数据集训练了11种不同架构的深度学习模型,涵盖了图神经网络(GNN)、RoBERTa、GPT-2和T5等模型家族。实验结果表明,大型语言模型(LLMs)在处理大规模数据时显著优于传统的图神经网络,特别是在检测未见过的项目时展现出更强的泛化能力。
衍生相关工作
DiverseVul数据集的发布催生了一系列相关研究工作。首先,许多研究者利用该数据集进行了深度学习模型在漏洞检测中的性能评估,特别是大型语言模型与传统图神经网络的对比研究。其次,基于DiverseVul的研究揭示了代码特定预训练任务的重要性,推动了新的预训练方法和模型的开发。此外,该数据集还促进了关于模型泛化能力的新研究,特别是在处理未见过的项目时,如何提升模型的预测准确性成为一个热门话题。这些研究不仅提升了漏洞检测的准确性,也为未来的软件安全研究提供了新的方向。
数据集最近研究
最新研究方向
在软件安全领域,DiverseVul数据集的最新研究方向主要集中在利用深度学习和大型语言模型(LLMs)进行漏洞检测。研究者们通过分析不同模型架构在检测软件漏洞中的表现,发现大型语言模型在处理大规模数据时表现出显著优势,尤其是在结合代码特定的预训练任务后,其性能显著提升。此外,研究还揭示了深度学习模型在泛化到未见项目时的挑战,这为未来的研究提供了重要方向,即如何提高模型在新项目中的泛化能力。总体而言,DiverseVul数据集的研究不仅推动了漏洞检测技术的发展,也为理解深度学习在软件安全中的应用提供了新的视角。
相关研究论文
  • 1
    DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection马里兰大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录