vulnerability-cwe-patch

Hugging Face2025-07-28 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/CIRCL/vulnerability-cwe-patch

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了软件漏洞的相关信息，每个样本都包括一个唯一标识符(id)、标题(title)、详细描述(description)、相关的漏洞编号(cweId)、漏洞类型(type)、编程语言(lang)、漏洞描述文本(description)、修复补丁的链接(url)、补丁文本的base64编码(patch_text_b64)和提交信息(commit_message)。数据集仅包含一个训练集split，共有350个样本，总文件大小为87558100字节。

创建时间：

2025-07-25

原始信息汇总

数据集概述

基本信息

数据集名称: CIRCL/vulnerability-cwe-patch
下载大小: 67,965,502字节
数据集大小: 87,558,100字节
训练集样本数量: 350
训练集大小: 87,558,100字节

数据结构

特征

id: 字符串类型，唯一标识符
title: 字符串类型，标题
description: 结构体类型，包含以下字段：
- type: 字符串类型
- cweId: 字符串类型
- lang: 字符串类型
- description: 字符串类型
patches: 列表类型，包含以下字段：
- url: 字符串类型
- patch_text_b64: 字符串类型
- commit_message: 字符串类型
cwe: 字符串序列类型

数据划分

训练集: 包含350个样本，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，漏洞修复数据的系统化收集对提升软件安全性具有重要意义。vulnerability-cwe-patch数据集通过结构化方式整合了350个真实漏洞案例，每个条目均包含漏洞ID、标题、详细描述（含CWE分类、语言类型和技术说明）以及对应的修复补丁信息。数据构建过程中，研发团队从公开漏洞库中提取核心元数据，并采用base64编码存储补丁文本，确保原始数据的完整性和可追溯性。

特点

该数据集以多维特征呈现漏洞修复知识体系，其核心优势体现在技术细节的深度标注。每个漏洞条目不仅关联通用弱点枚举(CWE)分类，还包含自然语言描述和实际修复方案。特别值得注意的是，补丁信息采用url、base64编码文本和提交消息的三元组形式存储，为研究漏洞修复模式提供了代码变更层面的细粒度数据。数据规模达87MB，覆盖多种编程语言漏洞场景。

使用方法

研究者可通过HuggingFace平台直接加载该数据集进行漏洞分析研究。典型应用场景包括：基于描述文本的漏洞分类模型训练、补丁代码的自动化生成研究，以及跨项目漏洞修复模式分析。使用时应先解码patch_text_b64字段获取原始补丁内容，结合commit_message分析修复意图。数据集的CWE标签体系可作为监督学习任务的分类依据，建议结合NLP技术处理描述文本中的技术术语。

背景与挑战

背景概述

vulnerability-cwe-patch数据集聚焦于软件安全领域，旨在系统化地收集与常见弱点枚举（CWE）相关的漏洞修复补丁。该数据集由专业安全研究团队构建，通过整合开源项目中的漏洞修复记录，为自动化漏洞检测与修复技术提供了关键数据支持。其核心研究问题在于如何从海量代码变更中识别有效的漏洞修复模式，进而推动静态分析工具与机器学习模型的性能提升。该数据集的出现填补了漏洞修复研究领域的数据空白，对软件安全社区的实证研究具有显著意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，漏洞修复的语义复杂性导致补丁有效性验证困难，不同CWE类型间的修复策略存在显著差异，要求模型具备细粒度的模式识别能力；在构建过程中，原始补丁数据的异构性（如混合编程语言、非结构化提交信息）需要复杂的预处理流程，且部分历史漏洞的上下文信息缺失，增加了数据标注与归一化的工作难度。如何平衡数据覆盖广度与标注质量，成为数据集持续优化的关键瓶颈。

常用场景

经典使用场景

在软件安全研究领域，vulnerability-cwe-patch数据集为分析常见弱点枚举（CWE）漏洞及其修复补丁提供了标准化资源。研究者通过该数据集可系统性地考察漏洞描述、补丁代码和提交信息之间的关联性，尤其适用于探究漏洞修复模式与代码变更特征的规律。数据集包含350个样本的精细标注，为构建漏洞检测模型提供了高质量的基准数据。

解决学术问题

该数据集有效解决了软件漏洞研究中修复方案追溯困难的核心问题。通过结构化存储CWE编号、漏洞描述及对应补丁，研究者能够量化分析不同漏洞类型的修复策略差异。其多语言描述的元数据设计，为跨代码库的漏洞模式挖掘提供了可能，显著提升了自动化漏洞修复系统的训练数据可靠性。

衍生相关工作

该数据集催生了多项漏洞自动修复领域的创新研究，包括基于Transformer的补丁生成模型、CWE分类增强系统等。部分研究通过结合数据集的补丁文本与提交信息，开发出能解释修复意图的双模态分析框架。在软件供应链安全方向，衍生出利用该数据集训练的可传递漏洞检测工具。

以上内容由遇见数据集搜集并总结生成