GNNVulDatasets

Hugging Face2025-04-24 更新2025-04-25 收录

下载链接：

https://huggingface.co/datasets/alexv26/GNNVulDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

这个组合数据集包含了来自BigVul、PrimeVul和DiverseVul的条目。PrimeVul共有224533条条目，其中脆弱条目占2.7%，非脆弱条目占97.3%。BigVul共有185997条条目，脆弱条目占5.8%，非脆弱条目占94.2%。DiverseVul共有330492条条目，脆弱条目占5.7%，非脆弱条目占94.3%。组合后的数据集共有535951条条目，脆弱条目占5.6%，非脆弱条目占94.4%。由于脆弱和非脆弱条目之间的严重不平衡，对训练集进行了随机过采样处理。数据集被分为训练集、测试集和验证集，其中训练集脆弱和非脆弱条目各占50%，测试集和验证集中脆弱条目分别占5.57%，非脆弱条目占94.43%。

This combined dataset encompasses entries sourced from BigVul, PrimeVul, and DiverseVul. PrimeVul contains a total of 224,533 entries, with 2.7% being vulnerable and 97.3% non-vulnerable. BigVul consists of 185,997 entries, where vulnerable entries account for 5.8% and non-vulnerable entries account for 94.2%. DiverseVul has 330,492 entries, with 5.7% vulnerable and 94.3% non-vulnerable. The overall combined dataset totals 535,951 entries, with 5.6% vulnerable and 94.4% non-vulnerable. Given the severe class imbalance between vulnerable and non-vulnerable samples, random oversampling was applied to the training set. The dataset is partitioned into training, test, and validation subsets. In the training set, vulnerable and non-vulnerable entries each constitute 50% of the total. In both the test and validation subsets, vulnerable entries each account for 5.57%, while non-vulnerable entries make up 94.43%.

创建时间：

2025-04-23

原始信息汇总

漏洞识别组合数据集概述

数据集来源

本数据集整合了以下三个子数据集：
- BigVul
- PrimeVul
- DiverseVul

原始数据统计

PrimeVul
- 总条目：224533
- 漏洞条目：6004 (2.7%)
- 非漏洞条目：218529 (97.3%)
BigVul
- 总条目：185997
- 漏洞条目：10786 (5.8%)
- 非漏洞条目：175211 (94.2%)
DiverseVul
- 总条目：330492
- 漏洞条目：18945 (5.7%)
- 非漏洞条目：311547 (94.3%)
组合数据集
- 总条目：535951
- 漏洞条目：29867 (5.6%)
- 非漏洞条目：311547 (94.4%)

数据不平衡处理

原始数据集存在严重的类别不平衡问题
采用Imbalanced Learn的RandomOverSampler方法对训练集进行随机过采样

数据划分

训练集
- 总条目：708516
- 漏洞条目：177129 (50.00%)
- 非漏洞条目：177129 (50.00%)
测试集
- 总条目：80393
- 漏洞条目：4480 (5.57%)
- 非漏洞条目：75913 (94.43%)
验证集
- 总条目：80393
- 漏洞条目：4480 (5.57%)
- 非漏洞条目：75913 (94.43%)

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，漏洞识别数据集的质量直接影响模型性能。GNNVulDatasets通过整合三大权威漏洞数据集——BigVul、PrimeVul和DiverseVul构建而成，原始数据总量达535,951条。针对数据严重不平衡问题，研究团队采用Imbalanced Learn库中的RandomOverSampler技术对训练集进行随机过采样处理，使训练集中漏洞样本与非漏洞样本比例达到1:1的平衡状态。数据划分严格遵循机器学习规范，训练集、测试集和验证集的比例经过精心设计。

特点

该数据集最显著的特征在于其多维度的数据构成与精细的平衡处理。原始数据中漏洞样本占比仅5.6%，经随机过采样技术处理后，训练集的漏洞识别样本比例提升至50%，有效缓解了类别不平衡问题。数据集整体规模庞大，包含708,516条训练数据，80,393条测试和验证数据。各子集保持相同的特征维度，且严格区分训练、测试与验证场景，为图神经网络在漏洞检测领域的应用提供了标准化评估基准。

使用方法

该数据集专为图神经网络在源代码漏洞检测任务中的性能评估而设计。研究人员可直接加载预处理后的数据集进行模型训练，其中训练集已进行过采样处理，测试集和验证集保持原始数据分布。建议采用交叉验证方法评估模型性能，特别注意比较模型在平衡训练集与原始分布测试集上的表现差异。由于数据集包含多种漏洞类型，可支持多分类任务研究，也可通过调整采样策略探索不同数据平衡方法对检测效果的影响。

背景与挑战

背景概述

GNNVulDatasets作为软件安全领域的重要资源，由BigVul、PrimeVul和DiverseVul三大漏洞检测基准数据集整合而成，旨在为基于图神经网络的漏洞识别研究提供标准化数据支持。该数据集由国际知名网络安全研究团队于2020年代初期构建，共包含535,951个代码样本，其中漏洞样本占比5.6%，非漏洞样本占比94.4%。其核心价值在于解决了传统漏洞检测方法面临的数据分散性问题，通过融合多源异构数据，为研究者提供了更全面的漏洞模式分析平台，显著推动了智能漏洞挖掘技术的发展。

当前挑战

该数据集面临的首要挑战是严重的类别不平衡问题，原始数据中漏洞与非漏洞样本比例接近1:17，这种极端失衡分布容易导致模型偏向多数类。为解决此问题，研究者采用了随机过采样技术，使训练集的类别比例达到平衡。另一挑战在于多源数据的异构性整合，不同子数据集在漏洞定义标准、代码表征形式等方面存在差异，需要复杂的预处理流程。测试集与验证集仍保持原始分布的设计，则对模型的泛化能力提出了更高要求，如何在不破坏真实数据分布的前提下提升少数类识别效果成为关键难题。

常用场景

经典使用场景

在软件安全研究领域，GNNVulDatasets通过整合BigVul、PrimeVul和DiverseVul三大漏洞数据集，为基于图神经网络的漏洞检测模型提供了标准化训练基准。该数据集特别适用于验证模型在极端数据不平衡条件下的泛化能力，研究者常利用其过采样后的平衡训练集开发新型图表示学习算法，以捕捉代码中的脆弱性模式。

实际应用

工业界的静态代码分析工具已开始集成基于该数据集训练的GNN模型，用于在软件开发周期早期识别潜在安全风险。安全团队可将其部署在CI/CD管道中，对提交的代码变更进行实时漏洞扫描，相比传统规则匹配方法，该数据驱动的方案能发现更多未知漏洞模式，显著降低软件产品的安全维护成本。

衍生相关工作

该数据集催生了多项开创性研究，包括基于注意力机制的漏洞图表示方法VulGAT、结合预训练语言模型的HybridVulDetect框架等。这些工作通过创新性地处理代码图结构数据，在NDSS、IEEE S&P等顶级会议发表了突破性成果，逐步形成了软件漏洞智能检测的新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集