five

CVEFixes|漏洞检测数据集|编程语言数据集

收藏
arXiv2024-12-20 更新2024-12-24 收录
漏洞检测
编程语言
下载链接:
https://github.com/secureIT-project/CVEfixes
下载链接
链接失效反馈
资源简介:
CVEFixes数据集是由隆德大学的研究团队创建的,包含了从2021年6月9日到2024年7月23日的所有已发布CVE记录,涵盖了5365个CVE记录和1754个开源项目。数据集包含了5495个漏洞修复提交,并与相应的CVE记录关联,提供了CVE-ID、参考链接、严重性评分、CWE类型等信息。数据集主要用于研究语言模型在不同编程语言中的漏洞检测效果,特别是JavaScript、PHP、Java、Python和Go。通过对该数据集的分析,研究团队旨在评估语言模型在不同编程语言中的漏洞检测性能,并探讨代码复杂度与检测性能之间的关系。
提供机构:
隆德大学
创建时间:
2024-12-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
CVEFixes数据集通过从美国国家漏洞数据库(NVD)中提取的公共CVE记录构建而成,涵盖了截至2024年7月的所有已发布CVE记录。该数据集包含了5365个CVE记录,涉及1754个开源项目,并从这些项目的版本控制系统中获取了5495个漏洞修复提交。每个漏洞修复提交都与相应的CVE记录关联,提供了CVE-ID、参考链接、严重性评分、CWE类型等详细信息。数据集的构建过程包括从NVD中提取数据、从版本控制系统中获取修复提交,并通过自动化脚本进行数据清洗和预处理,以确保数据的质量和完整性。
使用方法
CVEFixes数据集可用于训练和评估语言模型(LMs)在跨语言漏洞检测中的性能。研究者可以通过对数据集进行分层采样,将数据划分为训练集和测试集,以确保模型在不同语言上的泛化能力。数据集还提供了预处理脚本和实验结果,支持开放科学和研究的可重复性。研究者可以根据需要对数据集进行进一步的清洗和处理,以适应特定的研究需求。
背景与挑战
背景概述
CVEFixes数据集由Lund大学的研究人员创建,旨在解决软件安全领域中的漏洞检测问题。该数据集涵盖了多种编程语言(如JavaScript、Java、Python、PHP、Go和C/C++)中的漏洞修复信息,基于美国国家漏洞数据库(NVD)中的CVE记录。CVEFixes数据集的构建旨在为语言模型(LMs)在漏洞检测任务中的应用提供一个多样化的数据源,特别是在跨语言漏洞检测方面。通过该数据集,研究人员能够评估不同语言模型在检测漏洞时的性能差异,并探索代码复杂性与检测性能之间的关系。
当前挑战
CVEFixes数据集面临的挑战主要集中在两个方面:一是跨语言漏洞检测的复杂性,不同编程语言的语法和语义差异使得模型在泛化到新代码时表现不一致;二是数据集构建过程中的数据质量问题,如数据重复、标签不准确等,这些问题影响了模型的训练效果。此外,代码复杂性与漏洞检测性能之间的弱相关性也表明,现有的模型在处理复杂代码时仍存在局限性。这些挑战使得研究人员需要进一步探索更有效的模型架构和训练方法,以提高漏洞检测的准确性和泛化能力。
常用场景
经典使用场景
CVEFixes数据集在软件安全领域中被广泛用于漏洞检测任务,尤其是在利用语言模型(LMs)进行跨编程语言的漏洞检测研究中。该数据集通过收集多种编程语言(如JavaScript、Java、Python、PHP、Go等)中的漏洞修复提交,提供了丰富的语言特定漏洞数据。研究者通过对该数据集进行预处理和细调,评估了不同语言模型在检测漏洞方面的性能,尤其是针对JavaScript等语言的检测效果显著优于C/C++。
解决学术问题
CVEFixes数据集解决了当前漏洞检测研究中普遍存在的跨语言检测性能不一致的问题。传统研究主要集中在C/C++语言上,而CVEFixes通过提供多语言的漏洞数据,填补了这一研究空白。该数据集使得研究者能够系统地比较不同编程语言在漏洞检测中的表现,揭示了语言模型在非C/C++语言中的潜力,并为未来的漏洞检测研究提供了重要的基准数据。
实际应用
CVEFixes数据集在实际应用中为软件安全领域提供了重要的支持,尤其是在自动化漏洞检测工具的开发中。通过该数据集,开发者可以训练和评估语言模型,以识别JavaScript、Java、Python等流行编程语言中的漏洞。这些模型在实际应用中能够显著减少手动代码审查的工作量,提升漏洞检测的效率和准确性,从而增强软件的安全性。
数据集最近研究
最新研究方向
近年来,CVEFixes数据集在漏洞检测领域的前沿研究中扮演了重要角色。研究者们利用该数据集探索了语言模型(LMs)在多种编程语言(如JavaScript、Java、Python、PHP和Go)中的漏洞检测效果。研究发现,尽管语言模型在C/C++中的表现存在局限性,但在其他语言中,尤其是JavaScript,表现出显著的检测能力。研究还揭示了代码复杂性与漏洞检测性能之间的弱相关性,表明现有的复杂度指标可能不足以解释模型的检测效果。此外,跨语言的漏洞检测性能差异显著,提示未来研究需进一步优化模型以适应不同编程语言的特性。这些发现不仅推动了漏洞检测技术的进步,还为软件安全领域的自动化工具开发提供了新的方向。
相关研究论文
  • 1
    Vulnerability Detection in Popular Programming Languages with Language Models隆德大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

中国近海台风路径集合数据集(1945-2023)

1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。

国家海洋科学数据中心 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录