VUL4C

Name: VUL4C
Creator: 华中科技大学计算机科学与技术学院, 国家大数据技术与应用工程研究中心, 国家大数据安全工程研究中心, 金银湖实验室, 科罗拉多大学科罗拉多斯普林斯分校计算机科学系
Published: 2025-06-13 19:59:04
License: 暂无描述

arXiv2025-06-13 更新2025-06-17 收录

下载链接：

https://doi.org/10.5281/zenodo.15609776

下载链接

链接失效反馈

官方服务：

资源简介：

VUL4C数据集是由华中科技大学计算机科学与技术学院、国家大数据技术与应用工程研究中心、国家大数据安全工程研究中心、金银湖实验室以及科罗拉多大学科罗拉多斯普林斯分校计算机科学系的研究人员创建的。该数据集包含144个C/C++程序的漏洞及其对应的漏洞利用和修复补丁，旨在为自动漏洞修复（AVR）研究提供一个基准数据集。与现有的数据集相比，VUL4C提供了更全面的漏洞利用、漏洞触发方法和修复补丁，涵盖了更广泛的漏洞类型、软件和漏洞利用类型。VUL4C数据集的应用领域主要包括软件安全、自动漏洞修复和软件漏洞评估等方面，旨在解决软件漏洞修复过程中的依赖性问题，提高漏洞修复的效率和准确性。

The VUL4C dataset was developed by researchers from the School of Computer Science and Technology, Huazhong University of Science and Technology, the National Engineering Research Center for Big Data Technology and Application, the National Engineering Research Center for Big Data Security, Jinyinhu Laboratory, and the Department of Computer Science, University of Colorado Colorado Springs. This dataset includes vulnerabilities from 144 C/C++ programs, alongside their corresponding exploit codes and repair patches, to serve as a benchmark dataset for automated vulnerability repair (AVR) research. Compared with existing datasets, VUL4C provides more comprehensive vulnerability exploits, vulnerability triggering methods and repair patches, covering a wider range of vulnerability types, software applications and exploit categories. The primary application domains of the VUL4C dataset include software security, automated vulnerability repair and software vulnerability assessment, among others. It aims to address the dependency challenges encountered during software vulnerability repair, and enhance the efficiency and accuracy of vulnerability remediation.

提供机构：

华中科技大学计算机科学与技术学院, 国家大数据技术与应用工程研究中心, 国家大数据安全工程研究中心, 金银湖实验室, 科罗拉多大学科罗拉多斯普林斯分校计算机科学系

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

VUL4C数据集的构建过程分为四个关键步骤：首先从NVD数据库、现有数据集（如ExtractFix、LinuxFlaw）及技术博客中收集239个C/C++漏洞，经过去重后保留178个；随后通过验证漏洞补丁的可用性（剔除61个无效补丁）并重建漏洞程序；接着利用ASAN/UBSAN等检测工具验证漏洞的可利用性，最终筛选出包含144个真实漏洞的基准集，覆盖23个软件项目和19种CWE漏洞类型。数据集创新性地整合了漏洞触发输入、补丁程序及测试用例，其中47%的漏洞附带自动化测试脚本。

特点

VUL4C作为首个C/C++漏洞修复基准数据集，具备三大核心特征：1）完整性，提供漏洞程序、补丁、漏洞触发方法及利用代码四位一体的数据；2）多样性，涵盖缓冲区溢出、空指针解引用等19种漏洞类型，涉及图像处理库（libtiff）、编译器工具链（binutils）等多领域软件；3）可验证性，68个漏洞配备标准化测试用例，支持动态验证补丁有效性。相较于现有数据集，其漏洞数量提升4-10倍，且首次实现漏洞利用链的端到端覆盖。

使用方法

该数据集支持三类典型应用场景：1）评估自动化漏洞修复工具时，需将工具生成的候选补丁与数据集中的黄金补丁进行语义等价性比对；2）训练基于学习的修复模型时，可提取漏洞代码片段与补丁的映射关系作为监督信号；3）研究漏洞模式时，可通过跨项目的CWE类型分布分析漏洞共性。使用时应遵循ZIP压缩包内的标准化目录结构，利用配套的Makefile脚本完成漏洞环境构建与测试执行。

背景与挑战

背景概述

VUL4C是由华中科技大学国家大数据技术与系统工程研究中心的研究团队于2025年构建的首个C/C++漏洞修复基准数据集，旨在解决自动化漏洞修复（AVR）领域缺乏统一评估标准的问题。该数据集包含144个真实漏洞，涵盖23个软件产品和19种CWE漏洞类型，每个漏洞均提供漏洞触发利用、补丁程序及验证方法。作为AVR研究的新基准，VUL4C通过系统化收集漏洞分析、补丁生成和验证的全流程数据，显著提升了该领域工具评估的公平性和可重复性，弥补了先前数据集在漏洞覆盖广度和评估维度上的不足。

当前挑战

VUL4C面临的挑战主要体现在两个层面：1) 领域问题层面，现有AVR工具在修复跨函数漏洞和复杂漏洞类型（如内存错误、整数溢出）时普遍存在修复率低、生成补丁功能破坏等问题，且学习型方法缺乏对漏洞特性的针对性建模；2) 构建过程层面，需克服漏洞可利用性验证的技术难题（如符号执行路径爆炸问题）、确保补丁与原始漏洞的精确匹配，以及解决测试用例覆盖率不足导致的验证盲区（仅47%漏洞附带测试用例）。此外，数据集还需平衡漏洞多样性（如单文件/跨函数漏洞）与工具评估的普适性需求。

常用场景

经典使用场景

在软件安全研究领域，VUL4C数据集作为首个专为C/C++程序漏洞修复设计的基准数据集，其经典使用场景主要体现在自动化漏洞修复（AVR）工具的评估与比较。该数据集包含144个真实漏洞及其利用代码、补丁和触发方法，覆盖23个软件产品和19种CWE漏洞类型，为研究者提供了标准化的测试环境。通过VUL4C，研究人员能够系统评估不同AVR工具在漏洞定位、补丁生成和验证等关键步骤的性能差异，例如对比基于语义的修复方法与学习型方法的有效性。

衍生相关工作

VUL4C催生了多个前沿研究方向：1) 基于其评估结果，研究者提出了混合修复框架（如NTR），结合CodeT5的模板预测与StarCoder的代码生成能力；2) 启发了针对特定漏洞类型的专项工具开发，如CONCH对空指针修复的优化；3) 推动LLM在漏洞修复中的应用研究，如GPT-4在补丁验证环节的集成；4) 衍生出跨语言漏洞数据集VUL4J，扩展了Java生态的评估能力。这些工作均引用VUL4C作为核心评估基准，形成了以该数据集为基础的技术演进树。

数据集最近研究