five

多语言软件漏洞检测数据集|软件安全数据集|漏洞检测数据集

收藏
arXiv2025-03-03 更新2025-03-11 收录
软件安全
漏洞检测
下载链接:
https://github.com/soarsmu/SVD-Bench
下载链接
链接失效反馈
资源简介:
本研究构建了一个包含Python、Java和JavaScript三种流行编程语言漏洞数据的数据集。数据集由新加坡管理大学提供,包含了8260个Python语言的漏洞函数、7505个Java语言的漏洞函数和28983个JavaScript语言的漏洞函数。这些数据来源于国家漏洞数据库,并通过Git库中的漏洞修复提交记录进行提取和标注。该数据集旨在为大型语言模型在多语言软件漏洞检测任务上的性能评估提供基准,以解决当前软件安全领域中对不同编程语言漏洞检测方法效果缺乏全面研究的现状。
提供机构:
新加坡管理大学
创建时间:
2025-03-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方法主要基于从国家漏洞数据库(NVD)中收集的漏洞数据,以及GitHub、GitLab或BitBucket等代码托管平台的漏洞修复提交(VFCs)。研究人员通过CVE条目中包含的“patches”链接来搜索VFCs,并假设这些提交只修改了有漏洞的函数。然后,他们使用Tree-sitter工具从VFCs中提取修改前后的函数,并通过MD5散列进行去重。最终,数据集被分为训练集、验证集和测试集,并按照提交日期进行排序,以确保实验的时效性。
特点
该数据集的特点是包含了三种最流行的编程语言(Python、Java和JavaScript)的漏洞数据,并且提供了大量的漏洞函数。此外,该数据集还考虑了数据的时间特性,通过时间感知的设置来模拟现实世界的漏洞检测场景。数据集的构建方法使得数据集在多样性、规模和时效性方面都具有优势。
使用方法
使用该数据集的方法主要包括:1)使用零样本生成、上下文学习和检索增强生成等方法进行提示工程;2)使用指令调整和序列分类微调等方法进行模型微调;3)使用参数高效的微调技术(如QLoRA)来减少内存使用。此外,研究人员还探索了使用降采样数据集和集成学习方法来提高模型在漏洞检测任务上的性能。
背景与挑战
背景概述
多语言软件漏洞检测数据集的创建是为了填补大型语言模型(LLM)在软件漏洞检测(SVD)领域的知识空白。该数据集由新加坡管理大学计算与信息系统学院的研究团队于2025年3月创建,主要研究人员包括张婷、杨承然等。该数据集的核心研究问题在于评估LLM在多语言SVD任务上的性能,并探索提升其检测准确性的策略。该数据集的创建对相关领域产生了显著的影响,为未来利用生成式AI增强软件安全实践提供了实用见解。
当前挑战
多语言软件漏洞检测数据集面临的挑战主要包括:1) 所解决的领域问题:LLM在SVD任务上的性能提升;2) 构建过程中遇到的挑战:数据集的多样性和不平衡性,以及如何有效地将LLM应用于SVD任务。
常用场景
经典使用场景
多语言软件漏洞检测数据集主要用于评估大型语言模型(LLMs)在软件漏洞检测(SVD)任务中的性能。通过对LLMs进行提示工程、指令微调和序列分类微调等多种方法,研究者可以了解LLMs在不同编程语言中的漏洞检测能力,并为软件安全实践提供实用的见解。
解决学术问题
该数据集解决了现有研究中存在的知识差距,即LLMs在检测各种编程语言中的漏洞方面的有效性尚未得到充分研究。通过评估LLMs在Python、Java和JavaScript三种流行编程语言中的漏洞检测性能,该数据集有助于填补这一空白,并为未来的研究提供基础。
衍生相关工作
该数据集的发布衍生了许多相关的研究工作。研究者可以利用该数据集进行更深入的分析,例如探索LLMs在不同编程语言中的漏洞检测性能差异的原因,以及如何通过调整训练数据或模型结构来提高LLMs的漏洞检测性能。此外,该数据集还可以用于开发新的软件漏洞检测工具和方法,以进一步提高软件的安全性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录