realvul/RealVul

Name: realvul/RealVul
Creator: realvul
Published: 2024-07-08 18:52:58
License: 暂无描述

Hugging Face2024-07-08 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/realvul/RealVul

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个C++漏洞检测数据集，遵循现实设置。数据集包含多个特征，如文件名、易受攻击的代码行号、数据集类型、提交哈希、唯一ID、项目名称、目标值、仓库URL、日期、代码、CVE、CWE、提交链接、严重性等。数据集分为训练集和测试集，分别包含128705和142214个样本。目标列表示代码是否易受攻击，代码列包含代码片段。数据集的总大小为3108776334字节，下载大小为1076557341字节。

This is a C++ vulnerability detection dataset following realistic settings. The dataset includes features such as file name, vulnerable line numbers, dataset type, commit hash, unique ID, project name, target, repo URL, date, code, CVE, CWE, commit link, severity, etc. The dataset is divided into training and test sets, containing 128705 and 142214 samples respectively. The target column indicates whether the code is vulnerable, and the code column contains the code segment. The total size of the dataset is 3108776334 bytes, and the download size is 1076557341 bytes.

提供机构：

realvul

原始信息汇总

数据集概述

数据集信息

特征

file_name: 文件名，数据类型为 int64
vulnerable_line_numbers: 易受攻击的行号，数据类型为 string
dataset_type: 数据集类型，数据类型为 string
commit_hash: 提交哈希，数据类型为 string
unique_id: 唯一标识符，数据类型为 int64
project: 项目名称，数据类型为 string
target: 是否易受攻击，数据类型为 int64
repo_url: 仓库URL，数据类型为 string
date: 日期，数据类型为 string
code: 代码片段，数据类型为 string
CVE: CVE编号，数据类型为 string
CWE: CWE编号，数据类型为 string
commit_link: 提交链接，数据类型为 string
severity: 严重性，数据类型为 string
index_level_0: 索引级别，数据类型为 int64

数据集分割

train: 训练集，包含 128705 个样本，大小为 1440079604 字节
test: 测试集，包含 142214 个样本，大小为 1668696730 字节

数据集大小

下载大小: 1076557341 字节
总大小: 3108776334 字节

配置

default: 默认配置
- train: 数据路径为 data/train-*
- test: 数据路径为 data/test-*

重要列

target: 是否易受攻击，数据类型为 int
code: 代码片段，数据类型为 str

搜集汇总

数据集介绍

构建方式

realvul/RealVul数据集是以真实场景中的C++代码片段为蓝本，通过精确标记出漏洞行号与代码片段，构建了一个用于漏洞检测的基准数据集。该数据集的构建整合了代码仓库的提交记录、漏洞报告等多元信息，确保了数据样本的多样性和真实性。

特点

该数据集的主要特点在于其现实性，涵盖了不同项目、不同严重级别的漏洞，以及详细的漏洞和代码信息。其数据字段包括文件名、漏洞行号、数据集类型、提交哈希值、唯一标识符、项目名称、目标标签、代码仓库URL、日期、代码段、CVE编号、CWE编号、提交链接和严重性等级。这些特点使其成为评估深度学习在漏洞检测中性能的重要资源。

使用方法

用户可以通过HuggingFace的数据集库方便地加载realvul/RealVul数据集。数据集分为训练集和测试集，用户可根据需要选择相应的数据子集。加载后，可以直接利用数据集中的代码片段和标签进行模型训练和评估，进而开展漏洞检测的相关研究工作。

背景与挑战

背景概述

在软件开发领域，漏洞检测是确保软件安全性的关键环节。realvul/RealVul数据集在这样的背景下应运而生，由Chakraborty等研究人员于2024年创建，旨在为深度学习在漏洞检测方面的性能评估提供现实场景的数据支持。该数据集包含了C++代码段的详细信息，以及是否含有漏洞的标签，对于推动软件安全研究领域的发展具有显著影响。

当前挑战

realvul/RealVul数据集在构建过程中面临的挑战主要包括：一是确保数据集的现实性和多样性，二是如何准确标注漏洞信息。在研究领域问题上，该数据集解决了深度学习模型在真实环境中漏洞检测的性能评估问题，挑战在于如何提高模型的泛化能力和准确度，以及如何处理大量代码数据的高效标注和特征提取。

常用场景

经典使用场景

在计算机安全领域，realvul/RealVul数据集提供了一个基于现实场景的C++漏洞检测研究平台。该数据集通过其详尽的特性，如代码片段、漏洞行号、提交哈希值等，成为研究者在深度学习基础上进行漏洞检测模型训练与评估的经典工具。

衍生相关工作

基于realvul/RealVul数据集的研究衍生出了许多经典工作，如对深度学习模型在漏洞检测中性能的再评估、新型漏洞检测算法的提出等，这些研究进一步推动了软件安全领域的发展。

数据集最近研究