claudios/MVD

Name: claudios/MVD
Creator: claudios
Published: 2024-01-05 22:43:28
License: 暂无描述

Hugging Face2024-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/claudios/MVD

下载链接

链接失效反馈

官方服务：

资源简介：

MVD（多类漏洞数据集）是一个用于研究多类漏洞检测的数据库，基于NIST软件保证参考数据集（SARD）和国家漏洞数据库（NVD）。该数据集包含了181641个代码片段，覆盖了40种漏洞类型。每个代码片段由多个程序语句组成，这些语句与库/API函数调用具有直接或间接的数据依赖和控制依赖关系。数据集中的代码片段是从SARD和NVD的33409个测试用例中提取的，其中138522个代码片段是非漏洞的，43119个是漏洞的。

提供机构：

claudios

原始信息汇总

多类别漏洞数据集（MVD）

数据集信息

特征

func: 字符串类型
path: 字符串类型
source: 字符串类型
label: 64位整数类型

数据分割

训练集:
- 字节数: 156793256
- 样本数: 123515
验证集:
- 字节数: 27720814
- 样本数: 21797
测试集:
- 字节数: 45934658
- 样本数: 36329

数据大小

下载大小: 69412844 字节
数据集大小: 230448728 字节

配置

默认配置:
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*

任务类别

文本分类

标签映射

0: non-vulnerable
1: CWE-404
2: CWE-476
3: CWE-119
4: CWE-706
5: CWE-670
6: CWE-673
7: CWE-119, CWE-666, CWE-573
8: CWE-573
9: CWE-668
10: CWE-400, CWE-665, CWE-020
11: CWE-662
12: CWE-400
13: CWE-665
14: CWE-020
15: CWE-074
16: CWE-362
17: CWE-191
18: CWE-190
19: CWE-610
20: CWE-704
21: CWE-170
22: CWE-676
23: CWE-187
24: CWE-138
25: CWE-369
26: CWE-662, CWE-573
27: CWE-834
28: CWE-400, CWE-665
29: CWE-400, CWE-404
30: CWE-221
31: CWE-754
32: CWE-311
33: CWE-404, CWE-668
34: CWE-506
35: CWE-758
36: CWE-666
37: CWE-467
38: CWE-327
39: CWE-666, CWE-573
40: CWE-469

数据集描述

MVD 是一个用于多类别漏洞检测深度学习研究的数据库。该数据集基于 NIST 软件保证参考数据集（SARD）和国家漏洞数据库（NVD）。截至目前，它拥有 181641 个代码片段，涵盖 40 种漏洞类型。MVD 中的每个代码片段由多个程序语句组成，这些语句与库/API 函数调用具有直接或间接的数据依赖和控制依赖关系。总共，MVD 中的代码片段从 SARD 和 NVD 的 33409 个测试用例中提取，其中 138522 个代码片段是非漏洞的，43119 个是漏洞的。

在这个仓库中，压缩文件 mvd.txt.zip 存储了 181641 个代码片段及其对应的标签。名为 label2CWE.txt 的文件记录了每个标签与相应漏洞之间的映射关系。source files 文件夹包含用于提取代码片段的 33,409 个源文件。

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，MVD数据集的构建体现了对多类别漏洞检测的深度探索。该数据集基于美国国家标准与技术研究院的软件保障参考数据集及国家漏洞数据库，通过精心设计的提取流程，从33409个测试案例中析取出181641个代码片段。每个代码片段由多个程序语句构成，这些语句与库函数或API调用之间存在直接或间接的数据依赖与控制依赖关系，从而确保了漏洞特征的完整性与代表性。

特点

MVD数据集在漏洞检测领域展现出鲜明的特色，其覆盖了40种不同的漏洞类型，并包含41个分类标签，其中既包含单一漏洞类别，也涵盖了多种漏洞的组合情形。数据集中非漏洞代码片段与漏洞代码片段的数量分布为138522与43119，形成了较为均衡的样本结构。每个样本均标注了对应的通用漏洞枚举标识，为模型训练提供了精确的监督信号，同时也反映了真实世界中漏洞的复杂性与多样性。

使用方法

在深度学习驱动的漏洞检测研究中，MVD数据集为模型训练与评估提供了标准化框架。研究者可通过加载数据集的训练、验证与测试划分，直接应用于文本分类任务。数据集中每个样本包含代码文本、文件路径、来源及标签信息，便于进行特征提取与模型输入构建。利用预定义的标签映射关系，可将数值标签转换为对应的漏洞类型，从而支持多类别分类模型的性能分析与结果解释。

背景与挑战

背景概述

在软件安全领域，漏洞检测一直是保障信息系统可靠性的核心议题。2018年，由研究人员基于NIST软件保障参考数据集（SARD）与国家漏洞数据库（NVD）构建的多类别漏洞数据集（MVD）应运而生，其相关论文《VulDeePecker: A Deep Learning-Based System for Vulnerability Detection》于同年发表。该数据集聚焦于利用深度学习技术实现多类别漏洞的自动化识别，涵盖了40种常见弱点枚举（CWE）类型，共包含181,641个代码片段，其中43,119个为漏洞样本。MVD的创建标志着漏洞检测研究从传统规则方法向数据驱动范式的转变，为后续基于机器学习的软件安全分析提供了重要的基准资源。

当前挑战

MVD数据集所针对的领域挑战在于多类别漏洞检测的复杂性，软件漏洞往往表现出多样化的代码模式与语义特征，传统静态分析工具难以有效捕捉其深层关联。构建过程中的挑战则体现在数据收集与标注环节：一方面，原始漏洞数据来源分散，需从SARD与NVD中整合大量测试用例，并确保样本的代表性与平衡性；另一方面，代码片段的提取依赖于程序依赖关系分析，其准确性直接影响模型的学习效果。此外，数据集中存在的类别不平衡问题以及复合型漏洞的标注，也为模型训练与评估带来了额外的难度。

常用场景

经典使用场景

在软件安全领域，漏洞检测一直是保障信息系统可靠性的核心挑战。MVD数据集作为多类别漏洞检测的基准资源，其经典使用场景在于为深度学习模型提供结构化训练与评估环境。该数据集通过提取代码片段并标注41种漏洞类别，使研究者能够构建分类器，以自动化方式识别源代码中的潜在安全缺陷，从而推动智能漏洞分析技术的发展。

衍生相关工作

围绕MVD数据集，学术界衍生了一系列经典研究工作。例如，原始论文《VulDeePecker》开创了基于代码依赖关系的深度学习检测框架；后续研究则扩展了图神经网络与注意力机制在该数据集上的应用，提升了复杂漏洞的捕获能力。这些工作共同推动了智能漏洞检测领域的理论创新与方法演进，形成了以数据驱动为核心的研究范式。

数据集最近研究