CVEFixes

Name: CVEFixes
Creator: 隆德大学
Published: 2024-12-20 21:57:27
License: 暂无描述

arXiv2024-12-20 更新2024-12-24 收录

下载链接：

https://github.com/secureIT-project/CVEfixes

下载链接

链接失效反馈

官方服务：

资源简介：

CVEFixes数据集是由隆德大学的研究团队创建的，包含了从2021年6月9日到2024年7月23日的所有已发布CVE记录，涵盖了5365个CVE记录和1754个开源项目。数据集包含了5495个漏洞修复提交，并与相应的CVE记录关联，提供了CVE-ID、参考链接、严重性评分、CWE类型等信息。数据集主要用于研究语言模型在不同编程语言中的漏洞检测效果，特别是JavaScript、PHP、Java、Python和Go。通过对该数据集的分析，研究团队旨在评估语言模型在不同编程语言中的漏洞检测性能，并探讨代码复杂度与检测性能之间的关系。

The CVEFixes dataset was created by a research team from Lund University. It contains all publicly disclosed CVE records from June 9, 2021 to July 23, 2024, covering 5,365 CVE records across 1,754 open-source projects. The dataset includes 5,495 vulnerability fix commits associated with their corresponding CVE records, and provides information such as CVE-ID, reference links, severity scores, and CWE types. It is primarily used to study the vulnerability detection performance of language models across different programming languages, particularly JavaScript, PHP, Java, Python, and Go. Through analyses of this dataset, the research team aims to evaluate the vulnerability detection performance of language models across various programming languages and investigate the relationship between code complexity and detection performance.

提供机构：

隆德大学

创建时间：

2024-12-20

搜集汇总

数据集介绍

构建方式

CVEFixes数据集通过从美国国家漏洞数据库（NVD）中提取的公共CVE记录构建而成，涵盖了截至2024年7月的所有已发布CVE记录。该数据集包含了5365个CVE记录，涉及1754个开源项目，并从这些项目的版本控制系统中获取了5495个漏洞修复提交。每个漏洞修复提交都与相应的CVE记录关联，提供了CVE-ID、参考链接、严重性评分、CWE类型等详细信息。数据集的构建过程包括从NVD中提取数据、从版本控制系统中获取修复提交，并通过自动化脚本进行数据清洗和预处理，以确保数据的质量和完整性。

使用方法

CVEFixes数据集可用于训练和评估语言模型（LMs）在跨语言漏洞检测中的性能。研究者可以通过对数据集进行分层采样，将数据划分为训练集和测试集，以确保模型在不同语言上的泛化能力。数据集还提供了预处理脚本和实验结果，支持开放科学和研究的可重复性。研究者可以根据需要对数据集进行进一步的清洗和处理，以适应特定的研究需求。

背景与挑战

背景概述

CVEFixes数据集由Lund大学的研究人员创建，旨在解决软件安全领域中的漏洞检测问题。该数据集涵盖了多种编程语言（如JavaScript、Java、Python、PHP、Go和C/C++）中的漏洞修复信息，基于美国国家漏洞数据库（NVD）中的CVE记录。CVEFixes数据集的构建旨在为语言模型（LMs）在漏洞检测任务中的应用提供一个多样化的数据源，特别是在跨语言漏洞检测方面。通过该数据集，研究人员能够评估不同语言模型在检测漏洞时的性能差异，并探索代码复杂性与检测性能之间的关系。

当前挑战

CVEFixes数据集面临的挑战主要集中在两个方面：一是跨语言漏洞检测的复杂性，不同编程语言的语法和语义差异使得模型在泛化到新代码时表现不一致；二是数据集构建过程中的数据质量问题，如数据重复、标签不准确等，这些问题影响了模型的训练效果。此外，代码复杂性与漏洞检测性能之间的弱相关性也表明，现有的模型在处理复杂代码时仍存在局限性。这些挑战使得研究人员需要进一步探索更有效的模型架构和训练方法，以提高漏洞检测的准确性和泛化能力。

常用场景

经典使用场景

CVEFixes数据集在软件安全领域中被广泛用于漏洞检测任务，尤其是在利用语言模型（LMs）进行跨编程语言的漏洞检测研究中。该数据集通过收集多种编程语言（如JavaScript、Java、Python、PHP、Go等）中的漏洞修复提交，提供了丰富的语言特定漏洞数据。研究者通过对该数据集进行预处理和细调，评估了不同语言模型在检测漏洞方面的性能，尤其是针对JavaScript等语言的检测效果显著优于C/C++。

解决学术问题

CVEFixes数据集解决了当前漏洞检测研究中普遍存在的跨语言检测性能不一致的问题。传统研究主要集中在C/C++语言上，而CVEFixes通过提供多语言的漏洞数据，填补了这一研究空白。该数据集使得研究者能够系统地比较不同编程语言在漏洞检测中的表现，揭示了语言模型在非C/C++语言中的潜力，并为未来的漏洞检测研究提供了重要的基准数据。

实际应用

CVEFixes数据集在实际应用中为软件安全领域提供了重要的支持，尤其是在自动化漏洞检测工具的开发中。通过该数据集，开发者可以训练和评估语言模型，以识别JavaScript、Java、Python等流行编程语言中的漏洞。这些模型在实际应用中能够显著减少手动代码审查的工作量，提升漏洞检测的效率和准确性，从而增强软件的安全性。

数据集最近研究