realvul/RealVul
收藏Hugging Face2024-07-08 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/realvul/RealVul
下载链接
链接失效反馈官方服务:
资源简介:
这是一个C++漏洞检测数据集,遵循现实设置。数据集包含多个特征,如文件名、易受攻击的代码行号、数据集类型、提交哈希、唯一ID、项目名称、目标值、仓库URL、日期、代码、CVE、CWE、提交链接、严重性等。数据集分为训练集和测试集,分别包含128705和142214个样本。目标列表示代码是否易受攻击,代码列包含代码片段。数据集的总大小为3108776334字节,下载大小为1076557341字节。
This is a C++ vulnerability detection dataset following realistic settings. The dataset includes features such as file name, vulnerable line numbers, dataset type, commit hash, unique ID, project name, target, repo URL, date, code, CVE, CWE, commit link, severity, etc. The dataset is divided into training and test sets, containing 128705 and 142214 samples respectively. The target column indicates whether the code is vulnerable, and the code column contains the code segment. The total size of the dataset is 3108776334 bytes, and the download size is 1076557341 bytes.
提供机构:
realvul
原始信息汇总
数据集概述
数据集信息
特征
- file_name: 文件名,数据类型为
int64 - vulnerable_line_numbers: 易受攻击的行号,数据类型为
string - dataset_type: 数据集类型,数据类型为
string - commit_hash: 提交哈希,数据类型为
string - unique_id: 唯一标识符,数据类型为
int64 - project: 项目名称,数据类型为
string - target: 是否易受攻击,数据类型为
int64 - repo_url: 仓库URL,数据类型为
string - date: 日期,数据类型为
string - code: 代码片段,数据类型为
string - CVE: CVE编号,数据类型为
string - CWE: CWE编号,数据类型为
string - commit_link: 提交链接,数据类型为
string - severity: 严重性,数据类型为
string - index_level_0: 索引级别,数据类型为
int64
数据集分割
- train: 训练集,包含 128705 个样本,大小为 1440079604 字节
- test: 测试集,包含 142214 个样本,大小为 1668696730 字节
数据集大小
- 下载大小: 1076557341 字节
- 总大小: 3108776334 字节
配置
- default: 默认配置
- train: 数据路径为
data/train-* - test: 数据路径为
data/test-*
- train: 数据路径为
重要列
- target: 是否易受攻击,数据类型为
int - code: 代码片段,数据类型为
str
搜集汇总
数据集介绍

构建方式
realvul/RealVul数据集是以真实场景中的C++代码片段为蓝本,通过精确标记出漏洞行号与代码片段,构建了一个用于漏洞检测的基准数据集。该数据集的构建整合了代码仓库的提交记录、漏洞报告等多元信息,确保了数据样本的多样性和真实性。
特点
该数据集的主要特点在于其现实性,涵盖了不同项目、不同严重级别的漏洞,以及详细的漏洞和代码信息。其数据字段包括文件名、漏洞行号、数据集类型、提交哈希值、唯一标识符、项目名称、目标标签、代码仓库URL、日期、代码段、CVE编号、CWE编号、提交链接和严重性等级。这些特点使其成为评估深度学习在漏洞检测中性能的重要资源。
使用方法
用户可以通过HuggingFace的数据集库方便地加载realvul/RealVul数据集。数据集分为训练集和测试集,用户可根据需要选择相应的数据子集。加载后,可以直接利用数据集中的代码片段和标签进行模型训练和评估,进而开展漏洞检测的相关研究工作。
背景与挑战
背景概述
在软件开发领域,漏洞检测是确保软件安全性的关键环节。realvul/RealVul数据集在这样的背景下应运而生,由Chakraborty等研究人员于2024年创建,旨在为深度学习在漏洞检测方面的性能评估提供现实场景的数据支持。该数据集包含了C++代码段的详细信息,以及是否含有漏洞的标签,对于推动软件安全研究领域的发展具有显著影响。
当前挑战
realvul/RealVul数据集在构建过程中面临的挑战主要包括:一是确保数据集的现实性和多样性,二是如何准确标注漏洞信息。在研究领域问题上,该数据集解决了深度学习模型在真实环境中漏洞检测的性能评估问题,挑战在于如何提高模型的泛化能力和准确度,以及如何处理大量代码数据的高效标注和特征提取。
常用场景
经典使用场景
在计算机安全领域,realvul/RealVul数据集提供了一个基于现实场景的C++漏洞检测研究平台。该数据集通过其详尽的特性,如代码片段、漏洞行号、提交哈希值等,成为研究者在深度学习基础上进行漏洞检测模型训练与评估的经典工具。
衍生相关工作
基于realvul/RealVul数据集的研究衍生出了许多经典工作,如对深度学习模型在漏洞检测中性能的再评估、新型漏洞检测算法的提出等,这些研究进一步推动了软件安全领域的发展。
数据集最近研究
最新研究方向
在软件工程与安全领域,realvul/RealVul数据集作为一项重要的研究资源,其最新的研究方向聚焦于深度学习在现实场景下的漏洞检测性能。该数据集的构建旨在重现真实的编程环境,为学术研究者提供了一个极具挑战性的测试平台。近期研究以此数据集为基准,探讨深度学习模型在识别C++代码中安全漏洞的有效性,进而推动相关技术的进步。通过分析数据集的特性和模型的表现,研究人员能够深入理解漏洞检测的复杂性和深度学习技术的适用性,这对于提升软件安全性和降低安全风险具有深远的影响。
以上内容由遇见数据集搜集并总结生成



