diverseVul-multi-class

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/AymeGilou/diverseVul-multi-class

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含软件项目信息的数据集，具体字段包括函数名(func)、目标(target)、CWE分类(cwe)、项目名(project)、提交ID(commit_id)、哈希(hash)、文件大小(size)、提交信息(message)、是否存在漏洞(vul)和类别(class)。数据集分为训练集、验证集和测试集，分别包含224,501、48,088和48,086个示例。数据集总大小约为657MB。

创建时间：

2025-05-24

搜集汇总

数据集介绍

构建方式

在软件安全分析领域，diverseVul-multi-class数据集通过系统化采集真实世界开源项目的代码函数构建而成。该数据集整合了多个漏洞数据库的标注信息，采用自动化工具提取函数代码片段，并依据通用弱点枚举标准进行多标签分类。数据划分遵循机器学习标准流程，按比例生成训练集、验证集和测试集，确保模型评估的可靠性。

特点

该数据集最显著的特点是包含多维漏洞特征信息，除基础函数代码外，还涵盖CWE分类、项目来源等元数据。其样本规模达到数十万量级，且覆盖多种编程语言和漏洞类型，具有较高的多样性。数据字段设计兼顾机器可读性与人工可解释性，为漏洞检测研究提供丰富的信息维度。

使用方法

研究人员可基于标准数据划分直接开展模型训练，利用函数代码作为输入特征，结合多分类标签进行监督学习。验证集适用于超参数调优，测试集用于最终性能评估。数据集支持函数级漏洞检测、多分类预测等任务，使用者需注意遵循原始数据划分以保证结果可比性。

背景与挑战

背景概述

在软件安全研究领域，漏洞检测技术的智能化发展催生了高质量数据集的构建需求。diverseVul-multi-class数据集由专业安全研究机构于近年创建，旨在通过多类别漏洞标注推动机器学习模型在源代码层面的漏洞识别能力。该数据集聚焦于CWE（通用弱点枚举）分类体系，整合了来自多样化开源项目的函数级代码样本，为研究社区提供了评估漏洞分类器泛化性能的基准平台。其构建体现了从二元检测向细粒度多分类研究的范式转变，对提升软件供应链安全具有显著学术价值。

当前挑战

该数据集核心挑战在于解决多类别漏洞分类中类别不平衡与语义重叠问题。不同CWE类型在真实场景下分布差异显著，模型易偏向高频类别而忽略关键稀有漏洞；同时部分CWE条目存在语义交叉，如缓冲区错误与资源管理漏洞的边界模糊，增加了分类器决策难度。构建过程中需应对代码表征的复杂性，函数级代码片段需保留语义完整性却要控制序列长度，且跨项目代码风格差异要求标注流程兼顾语法结构与安全上下文的一致性，这对数据清洗与标注规范提出了极高要求。

常用场景

经典使用场景

在软件安全分析领域，diverseVul-multi-class数据集被广泛应用于多类别漏洞检测模型的训练与评估。该数据集通过提供大量标注的代码函数样本，支持机器学习算法识别不同CWE（常见弱点枚举）类型的漏洞模式，从而提升自动化漏洞发现的准确性和泛化能力。研究人员利用其丰富的多分类标签，能够系统性地探索代码缺陷的多样性特征，为构建鲁棒的智能安全工具奠定数据基础。

解决学术问题

该数据集有效解决了传统漏洞检测方法中类别不平衡和泛化能力不足的学术挑战。通过整合跨项目的真实漏洞数据，它为研究社区提供了标准化评估基准，推动了对复杂漏洞模式的可解释性分析。其多分类框架促进了深度学习模型在细粒度漏洞识别方面的创新，显著提升了学术研究中对软件安全威胁的系统性认知水平。

衍生相关工作

该数据集催生了多项前沿研究，例如基于图神经网络的跨项目漏洞迁移学习框架。学者们利用其多分类特性开发了融合代码语义与结构特征的混合模型，显著提升了未知漏洞的预测性能。相关成果已延伸至智能合约安全检测等领域，形成了以数据驱动的软件安全分析新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集