claudios/DiverseVul

Name: claudios/DiverseVul
Creator: claudios
Published: 2024-01-30 18:30:49
License: 暂无描述

Hugging Face2024-01-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/claudios/DiverseVul

下载链接

链接失效反馈

官方服务：

资源简介：

--- arxiv: 2304.00409 dataset_info: features: - name: func dtype: string - name: target dtype: int64 - name: cwe sequence: string - name: project dtype: string - name: commit_id dtype: string - name: hash dtype: float64 - name: size dtype: int64 - name: message dtype: string splits: - name: test num_bytes: 670935965 num_examples: 330492 download_size: 170891799 dataset_size: 670935965 configs: - config_name: default data_files: - split: test path: data/test-* --- # DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection This is an **unofficial** HuggingFace upload of the DiverseVul dataset from "[DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection](https://dl.acm.org/doi/10.1145/3607199.3607242)". Usage: ```python from datasets import load_dataset dataset = load_dataset("claudios/DiverseVul") ``` *** ## Citation ``` @article{Chen2023DiverseVulAN, title={DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection}, author={Yizheng Chen and Zhoujie Ding and Lamya Alowain and Xinyun Chen and David A. Wagner}, journal={Proceedings of the 26th International Symposium on Research in Attacks, Intrusions and Defenses}, year={2023}, url={https://dl.acm.org/doi/10.1145/3607199.3607242} } ```

--- arXiv: 2304.00409 数据集信息：特征字段： - 字段名：func，数据类型：字符串 - 字段名：target，数据类型：int64 - 字段名：cwe，数据类型：字符串序列 - 字段名：project，数据类型：字符串 - 字段名：commit_id，数据类型：字符串 - 字段名：hash，数据类型：float64 - 字段名：size，数据类型：int64 - 字段名：message，数据类型：字符串数据集划分： - 划分名称：test，总字节数：670935965，样本数：330492 下载大小：170891799 数据集总大小：670935965 配置项： - 配置名称：default，数据文件： - 划分：test，路径：data/test-* --- # DiverseVul：一款面向基于深度学习的漏洞检测的新型存在漏洞源代码数据集本仓库为**非官方**的HuggingFace上传版本，对应论文《DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection》（链接：https://dl.acm.org/doi/10.1145/3607199.3607242）中的DiverseVul数据集。 ## 使用方法 python from datasets import load_dataset dataset = load_dataset("claudios/DiverseVul") *** ## 引用格式 @article{Chen2023DiverseVulAN, title={DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection}, author={Yizheng Chen and Zhoujie Ding and Lamya Alowain and Xinyun Chen and David A. Wagner}, journal={Proceedings of the 26th International Symposium on Research in Attacks, Intrusions and Defenses}, year={2023}, url={https://dl.acm.org/doi/10.1145/3607199.3607242} }

提供机构：

claudios

原始信息汇总

DiverseVul 数据集概述

数据集信息

特征

func: 字符串类型
target: 64位整数类型
cwe: 字符串序列
project: 字符串类型
commit_id: 字符串类型
hash: 64位浮点数类型
size: 64位整数类型
message: 字符串类型

数据分割

test: 包含330492个样本，总字节数为670935965

数据大小

下载大小: 170891799字节
数据集大小: 670935965字节

配置

default: 包含测试数据，路径为data/test-*

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，构建高质量的漏洞检测数据集对于提升深度学习模型的泛化能力至关重要。DiverseVul数据集通过系统性地收集来自多个开源项目的真实漏洞代码片段构建而成，其数据来源于广泛的软件仓库，并经过严格的筛选与标注流程。该数据集不仅涵盖了多样化的漏洞类型，还确保了每个样本均关联具体的CWE标识、项目信息及提交记录，从而为研究者提供了丰富且可靠的训练与评估资源。

使用方法

为便于学术研究与应用开发，DiverseVul数据集已集成于HuggingFace平台，用户可通过简单的代码调用快速加载数据。利用datasets库中的load_dataset函数，研究者可直接访问数据集的测试分割部分，进而进行模型训练、评估或分析。该数据集适用于源代码级别的漏洞检测任务，支持深度学习方法的实验与比较，为软件安全领域的进步提供了实用工具。

背景与挑战

背景概述

在软件安全领域，基于深度学习的漏洞检测技术日益成为研究热点，其性能高度依赖于训练数据的质量与多样性。2023年，由Yizheng Chen、Zhoujie Ding等学者在《Proceedings of the 26th International Symposium on Research in Attacks, Intrusions and Defenses》上提出的DiverseVul数据集，旨在应对现有漏洞数据集中普遍存在的样本偏差与覆盖不足问题。该数据集通过整合多个开源项目的真实漏洞代码，聚焦于提升漏洞模式的多样性与代表性，为构建更稳健的漏洞检测模型提供了关键数据基础，推动了自动化安全分析工具的发展。

当前挑战

DiverseVul数据集致力于解决深度学习在源代码漏洞检测中面临的泛化能力不足的挑战，即模型在训练数据上表现良好，却难以识别未见过的漏洞模式。其构建过程同样充满挑战：需从海量开源代码中精准识别并标注漏洞片段，涉及复杂的代码解析与漏洞类型映射；同时，确保数据集的多样性与平衡性，避免特定项目或漏洞类别的过度代表，以真实反映现实世界软件的复杂性。

常用场景

经典使用场景

在软件安全领域，漏洞检测一直是保障代码质量与系统安全的核心挑战。DiverseVul数据集通过整合多样化的漏洞代码样本，为深度学习模型提供了丰富的训练与评估资源。该数据集最经典的使用场景在于支持基于机器学习的漏洞检测算法开发，研究者可利用其包含的函数级代码片段与对应的漏洞标签，构建分类或序列模型，以自动识别源代码中的潜在安全缺陷。其覆盖多种常见弱点枚举（CWE）类型，使得模型能够学习跨项目的通用漏洞模式，从而提升检测的泛化能力与准确性。

解决学术问题

传统漏洞检测方法常受限于规则库的更新滞后与人工分析的效率瓶颈。DiverseVul数据集通过大规模、多样化的标注数据，直接应对了深度学习模型在漏洞检测中面临的数据稀缺与偏差问题。它解决了学术研究中关于模型泛化性、跨项目迁移学习以及多类型漏洞统一检测的难题，为探索代码语义理解与安全属性关联提供了实证基础。该数据集的意义在于推动了软件安全与人工智能的交叉研究，促进了自动化漏洞检测技术向更高效、更可靠的方向演进。

实际应用

在实际应用层面，DiverseVul数据集为软件开发与安全团队提供了宝贵的测试基准。企业可利用该数据集训练或微调内部漏洞扫描工具，以增强对开源或自研代码的安全审计能力。例如，在持续集成流程中集成基于该数据集的检测模型，能够实现代码提交时的实时漏洞预警，从而降低软件发布后的安全风险。此外，安全研究人员也可借助其评估现有检测工具的性能，识别工具盲区，进而优化防护策略，提升整体软件供应链的安全性。

数据集最近研究