benjis/diversevul
收藏Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/benjis/diversevul
下载链接
链接失效反馈官方服务:
资源简介:
DiverseVul数据集是一个用于漏洞检测的数据集,包含超过10万条数据。数据集分为训练集、验证集和测试集,每个样本包含函数代码、目标标签、CWE标识、项目名称、提交ID、哈希值、大小和提交信息等特征。
DiverseVul is a vulnerability detection dataset containing over 100,000 samples. The dataset is split into training, validation and test subsets, where each sample includes features such as function code, target label, CWE identifier, project name, commit ID, hash value, size and commit message.
提供机构:
benjis
原始信息汇总
数据集概述
数据集名称
- DiverseVul
数据集标签
- vulnerability detection
数据集配置
- 默认配置 (
default)- 训练集 (
train): 路径为data/train-* - 验证集 (
validation): 路径为data/validation-* - 测试集 (
test): 路径为data/test-*
- 训练集 (
数据集特征
func: 类型为stringtarget: 类型为int64cwe: 类型为string序列project: 类型为stringcommit_id: 类型为stringhash: 类型为float64size: 类型为int64message: 类型为string
数据集分割
- 训练集 (
train)- 字节数: 536747553.93245524
- 样本数: 264393
- 验证集 (
validation)- 字节数: 67093190.47748508
- 样本数: 33049
- 测试集 (
test)- 字节数: 67095220.59005967
- 样本数: 33050
数据集大小
- 下载大小: 61493712 字节
- 数据集大小: 670935965.0 字节
搜集汇总
数据集介绍

构建方式
DiverseVul数据集的构建基于多样化的漏洞检测需求,通过收集和整理来自不同项目的代码片段,确保了数据集的广泛性和代表性。数据集包含了训练、验证和测试三个主要部分,每个部分均涵盖了大量的代码样本,以支持深度学习模型在漏洞检测任务中的训练与评估。
特点
DiverseVul数据集的显著特点在于其多样性和规模。数据集不仅涵盖了多种类型的漏洞,还包含了来自不同项目的代码,确保了数据集的广泛适用性。此外,数据集的特征设计包括代码函数、目标标签、CWE(常见弱点枚举)、项目信息、提交ID、哈希值、大小和消息等,这些特征为模型提供了丰富的上下文信息,有助于提高漏洞检测的准确性。
使用方法
DiverseVul数据集适用于多种机器学习和深度学习模型的训练与评估,特别是在漏洞检测领域。用户可以通过加载数据集的训练、验证和测试部分,分别用于模型的训练、调优和性能评估。数据集的特征设计使得模型能够更好地理解代码的结构和潜在的漏洞模式,从而提高检测效率和准确性。
背景与挑战
背景概述
DiverseVul数据集由Wagner Group的研究团队创建,专注于软件漏洞检测领域。该数据集的构建旨在解决现有漏洞检测数据集多样性不足的问题,通过收集和标注来自多个开源项目的代码片段,涵盖了广泛的漏洞类型和软件工程实践。DiverseVul的发布时间为2023年,其核心研究问题是如何在多样化的代码环境中有效识别和分类漏洞,从而提升漏洞检测模型的泛化能力。该数据集的推出对软件安全领域具有重要意义,为研究人员提供了一个更为全面和真实的实验平台,推动了漏洞检测技术的进一步发展。
当前挑战
DiverseVul数据集在构建过程中面临多项挑战。首先,如何从众多开源项目中筛选出具有代表性的代码片段,确保数据集的多样性和覆盖范围,是一个复杂的问题。其次,漏洞标注的准确性和一致性也是一大挑战,因为不同项目的代码风格和漏洞类型各异,手动标注容易引入误差。此外,数据集的规模和结构设计需要平衡模型的训练需求与计算资源的限制,确保在有限的资源下仍能有效训练出高性能的漏洞检测模型。这些挑战共同构成了DiverseVul数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在软件工程领域,DiverseVul数据集被广泛应用于漏洞检测任务中。该数据集通过收集多种开源项目的代码片段,结合其对应的漏洞标签和相关元数据,为研究人员提供了一个丰富的资源库。经典的使用场景包括训练和评估基于机器学习的漏洞检测模型,通过分析代码片段的语义特征,模型能够识别潜在的安全漏洞,从而提升软件的安全性。
解决学术问题
DiverseVul数据集解决了软件工程领域中漏洞检测的多样性和复杂性问题。传统的漏洞检测方法往往依赖于规则或简单的统计分析,难以应对日益复杂的软件系统。该数据集通过提供多样化的代码样本和详细的漏洞信息,使得研究人员能够开发出更加精准和鲁棒的漏洞检测算法,推动了该领域的学术研究进展。
衍生相关工作
DiverseVul数据集的发布激发了大量相关研究工作。研究人员基于该数据集开发了多种先进的漏洞检测模型,如基于深度学习的代码分析工具和自动化漏洞修复系统。此外,该数据集还被用于验证和比较不同漏洞检测方法的性能,推动了漏洞检测技术的标准化和普及。这些衍生工作不仅丰富了软件工程领域的研究内容,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



