CommitVulFix

Name: CommitVulFix
Creator: 华中科技大学
Published: 2025-01-07 16:52:55
License: 暂无描述

arXiv2025-01-07 更新2025-01-09 收录

下载链接：

https://github.com/security-pride/CommitShield

下载链接

链接失效反馈

官方服务：

资源简介：

CommitVulFix是由华中科技大学和蚂蚁集团的研究团队构建的漏洞修复检测数据集，主要用于评估漏洞修复检测工具的性能。该数据集包含681个C/C++漏洞修复提交和1118个非漏洞修复提交，数据来源于2023年以来的开源软件版本控制系统。数据集通过结合静态分析工具和大语言模型（LLMs）生成精确的提交描述，并获取丰富的补丁上下文信息。该数据集的应用领域主要集中在软件安全领域，旨在提高漏洞修复检测的准确性，帮助开发者在软件开发过程中及时发现和修复漏洞，从而提升软件系统的安全性。

CommitVulFix is a vulnerability fix detection dataset constructed by the research teams from Huazhong University of Science and Technology and Ant Group, primarily used to evaluate the performance of vulnerability fix detection tools. This dataset includes 681 C/C++ vulnerability fix commits and 1,118 non-vulnerability fix commits, sourced from open-source software version control systems since 2023. The dataset generates precise commit descriptions and obtains rich patch context information by combining static analysis tools and large language models (LLMs). Its application scenarios mainly focus on the field of software security, aiming to improve the accuracy of vulnerability fix detection, assist developers in timely discovering and fixing vulnerabilities during software development, and thereby enhance the security of software systems.

提供机构：

华中科技大学

创建时间：

2025-01-07

搜集汇总

数据集介绍

构建方式

CommitVulFix数据集的构建基于对开源软件版本控制系统中提交记录的分析，特别是针对C/C++代码库中的漏洞修复提交。研究者通过收集2023年以来的C/C++漏洞修复提交，并结合GitHub API提取相关提交的详细信息，包括提交描述、代码差异等。为了确保数据集的多样性和代表性，研究者还从包含这些漏洞的仓库中筛选了非漏洞修复提交，最终构建了一个包含681个漏洞修复提交和1,118个非漏洞修复提交的数据集。

特点

CommitVulFix数据集的特点在于其专注于C/C++代码库中的漏洞修复提交，涵盖了2023年以来的最新漏洞修复记录。数据集不仅包含漏洞修复提交，还包含了大量非漏洞修复提交，确保了评估工具在识别漏洞修复时的准确性。此外，数据集的构建过程中充分考虑了提交描述和代码差异的上下文信息，为漏洞修复检测任务提供了丰富的背景数据。

使用方法

CommitVulFix数据集主要用于评估漏洞修复检测工具的性能。研究者可以通过该数据集测试工具在识别漏洞修复提交时的准确性和召回率。数据集中的非漏洞修复提交则用于评估工具在区分漏洞修复与非漏洞修复时的表现。通过结合静态分析工具和大语言模型（LLM），研究者可以利用该数据集进行漏洞修复和漏洞引入的检测任务，进一步提升工具的性能。

背景与挑战

背景概述

CommitVulFix数据集由华中科技大学的研究团队于2023年创建，旨在解决开源软件版本控制系统中漏洞引入与修复的检测问题。该数据集的核心研究问题是通过结合静态分析工具与大型语言模型（LLMs），提升漏洞修复与引入检测的准确性。CommitVulFix的构建基于对C/C++代码库的深入分析，涵盖了681个漏洞修复提交和1118个非漏洞修复提交。该数据集的发布为软件安全领域的研究提供了重要的数据支持，尤其是在漏洞修复与引入的自动化检测方面，推动了相关技术的发展。

当前挑战

CommitVulFix数据集在构建与应用过程中面临多重挑战。首先，漏洞修复检测（VFD）任务中，现有工具往往忽略提交描述信息，导致误报率较高。其次，漏洞引入检测（VID）任务中，传统的SZZ算法及其变体主要依赖删除代码的检测，无法有效识别通过添加代码修复漏洞的情况。此外，数据集的构建过程中，如何准确提取与漏洞相关的代码修改信息，并确保数据的多样性与代表性，也是研究者面临的主要挑战。这些挑战不仅影响了检测工具的准确性，也对数据集的广泛应用提出了更高的要求。

常用场景

经典使用场景

CommitVulFix数据集在软件安全领域中被广泛用于检测和追踪版本控制系统中的漏洞引入与修复。通过结合静态分析工具和大语言模型（LLMs），该数据集能够精确生成漏洞修复的描述，并提供丰富的补丁上下文，从而显著提升漏洞检测的准确性。其经典使用场景包括在开源软件的版本控制系统中，自动识别哪些提交引入了新的漏洞，以及哪些提交修复了现有的漏洞。

实际应用

在实际应用中，CommitVulFix数据集被广泛用于开源软件的漏洞管理。开发者可以利用该数据集在漏洞正式披露前，提前检测和修复潜在的漏洞，从而减少恶意攻击的窗口期。此外，该数据集还可用于分析历史提交，帮助开发者识别哪些版本的软件可能包含未修复的漏洞，从而指导修复工作。这些应用显著提升了软件开发的整体安全性。

衍生相关工作

CommitVulFix数据集衍生了一系列相关研究工作，特别是在漏洞检测和修复领域。例如，VulFixMiner和VulCurator等工具通过结合预训练模型和提交描述信息，进一步提升了漏洞修复检测的准确性。此外，基于SZZ算法的改进版本如V-SZZ、AG-SZZ等，也在漏洞引入检测任务中取得了显著进展。这些工作共同推动了软件安全领域的研究进展，并为未来的漏洞管理工具提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集