diverseVul-distillation

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/AymeGilou/diverseVul-distillation

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含四个字段的数据集：func（功能）、label（标签）、target（目标）和teacher_probs（教师概率）。数据集分为训练集、验证集和测试集三个部分，分别包含26366、5662和5862个示例。数据集的总大小为91268538字节，下载大小为37000394字节。

创建时间：

2025-05-19

原始信息汇总

数据集概述

基本信息

数据集名称: diverseVul-distillation
下载大小: 37,000,394 字节
数据集大小: 91,268,538 字节

数据集特征

func: 字符串类型，表示函数代码
label: 整型，表示标签
target: 字符串类型，表示目标
teacher_probs: 浮点数序列，表示教师模型的概率

数据集划分

训练集 (train)
- 样本数量: 26,366
- 大小: 62,475,016 字节
验证集 (validation)
- 样本数量: 5,662
- 大小: 14,184,137 字节
测试集 (test)
- 样本数量: 5,862
- 大小: 14,609,385 字节

配置文件

默认配置 (default)
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，漏洞检测模型的训练需要高质量的数据支撑。diverseVul-distillation数据集通过知识蒸馏技术构建，从教师模型中提取概率分布作为软标签，与源代码函数及其对应漏洞标签共同构成训练样本。数据集包含26,366个训练样本、5,662个验证样本和5,862个测试样本，采用标准的三分法划分确保模型评估的可靠性。

特点

该数据集最显著的特点是融合了传统硬标签与教师模型输出的概率分布，为漏洞检测任务提供了更丰富的监督信号。每个样本包含四个关键字段：函数源代码字符串、二进制漏洞标签、目标漏洞类型以及教师模型预测的概率序列。这种多维度的数据表征方式，既保留了原始代码的语义信息，又融入了深度学习模型提炼的潜在特征。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的数据分割方式便于快速构建训练流程。使用时需注意teacher_probs字段包含教师模型对各漏洞类别的概率预测，可结合硬标签进行联合训练或设计蒸馏损失函数。测试集5862个样本的规模为模型性能评估提供了统计显著性保障，建议在验证集调优后使用标准测试协议进行评估。

背景与挑战

背景概述

diverseVul-distillation数据集聚焦于软件漏洞检测领域，旨在通过知识蒸馏技术提升漏洞检测模型的泛化能力与效率。该数据集由专业研究团队构建，收录了涵盖多种编程语言的函数级代码片段，并标注了对应的漏洞类型标签。随着软件系统复杂度的提升，传统静态分析工具在准确率和误报率方面面临严峻挑战，而该数据集的推出为基于机器学习的漏洞检测方法提供了高质量的训练与评估基准。其核心价值在于通过教师模型输出的概率分布作为软标签，有效解决了小样本场景下模型过拟合的问题。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，软件漏洞检测需要处理代码语义理解、控制流分析等高复杂度任务，不同漏洞类型间的特征边界往往较为模糊；在构建过程中，如何确保教师模型预测的可靠性，以及平衡原始代码与蒸馏特征之间的信息损失成为关键难题。数据样本的多样性要求覆盖不同代码风格和漏洞模式，这对数据收集和标注过程提出了极高要求。同时，跨语言漏洞检测的场景适应性也是亟待突破的技术瓶颈。

常用场景

经典使用场景

在软件安全领域，diverseVul-distillation数据集为漏洞检测模型的训练与评估提供了重要支持。该数据集通过包含多种编程语言的函数代码片段及其对应的漏洞标签，为研究者构建跨语言漏洞检测系统奠定了数据基础。其独特的教师模型概率分布特征，使得模型能够学习到更细粒度的漏洞模式识别能力，显著提升了漏洞检测的准确率与泛化性能。

实际应用

在实际应用中，diverseVul-distillation数据集被广泛应用于构建企业级代码审计系统。安全团队利用其训练得到的模型，能够自动化扫描海量代码库中的潜在漏洞，大幅提升代码审查效率。云服务提供商基于该数据集开发的漏洞检测服务，已成功集成到持续集成流程中，为开发者提供实时代码安全反馈。

衍生相关工作

基于diverseVul-distillation数据集，学术界涌现了一系列创新研究。包括基于多任务学习的统一漏洞检测框架、结合图神经网络的代码表征方法，以及面向边缘设备的轻量化检测模型。这些工作不仅拓展了数据集的应用边界，更为软件安全领域注入了新的研究思路，形成了以数据为中心的漏洞分析研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集