Partha117/RealVul
收藏Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Partha117/RealVul
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: file_name
dtype: int64
- name: vulnerable_line_numbers
dtype: string
- name: dataset_type
dtype: string
- name: commit_hash
dtype: string
- name: unique_id
dtype: int64
- name: project
dtype: string
- name: target
dtype: int64
- name: repo_url
dtype: string
- name: date
dtype: string
- name: code
dtype: string
- name: CVE
dtype: string
- name: CWE
dtype: string
- name: commit_link
dtype: string
- name: severity
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 1440079604
num_examples: 128705
- name: test
num_bytes: 1668696730
num_examples: 142214
download_size: 1076557341
dataset_size: 3108776334
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
数据集信息:
特征字段:
- 名称:文件名(file_name),数据类型:int64
- 名称:漏洞行号(vulnerable_line_numbers),数据类型:string
- 名称:数据集类型(dataset_type),数据类型:string
- 名称:提交哈希(commit_hash),数据类型:string
- 名称:唯一标识符(unique_id),数据类型:int64
- 名称:项目(project),数据类型:string
- 名称:目标标签(target),数据类型:int64
- 名称:代码仓库地址(repo_url),数据类型:string
- 名称:日期(date),数据类型:string
- 名称:代码(code),数据类型:string
- 名称:CVE(通用漏洞与披露,Common Vulnerabilities and Exposures),数据类型:string
- 名称:CWE(通用弱点枚举,Common Weakness Enumeration),数据类型:string
- 名称:提交链接(commit_link),数据类型:string
- 名称:漏洞严重性等级(severity),数据类型:string
- 名称:索引列0(__index_level_0__),数据类型:int64
数据集划分:
- 划分名称:训练集(train),字节占用:1440079604,样本数量:128705
- 划分名称:测试集(test),字节占用:1668696730,样本数量:142214
下载总大小:1076557341,数据集总大小:3108776334
数据集配置:
- 配置名称:默认配置(default),数据文件:
- 划分:训练集(train),路径:data/train-*
- 划分:测试集(test),路径:data/test-*
提供机构:
Partha117
原始信息汇总
数据集信息
特征
- file_name: 数据类型为
int64 - vulnerable_line_numbers: 数据类型为
string - dataset_type: 数据类型为
string - commit_hash: 数据类型为
string - unique_id: 数据类型为
int64 - project: 数据类型为
string - target: 数据类型为
int64 - repo_url: 数据类型为
string - date: 数据类型为
string - code: 数据类型为
string - CVE: 数据类型为
string - CWE: 数据类型为
string - commit_link: 数据类型为
string - severity: 数据类型为
string - index_level_0: 数据类型为
int64
数据分割
- train: 包含 128705 个样本,大小为 1440079604 字节
- test: 包含 142214 个样本,大小为 1668696730 字节
数据集大小
- 下载大小: 1076557341 字节
- 数据集大小: 3108776334 字节
配置
- default
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
搜集汇总
数据集介绍

构建方式
Partha117/RealVul数据集的构建采取了对现实环境中C++代码库的深度挖掘与漏洞标注。该数据集通过收集开源代码库,并从中提取出包含已知漏洞的代码片段作为正样本,同时匹配不包含漏洞的代码片段作为负样本,构建了一个全面且具有现实意义的漏洞检测数据集。数据集涵盖了文件名、漏洞行号、数据集类型、提交哈希值、唯一标识符、项目名、目标标签、代码库URL、日期、代码段、CVE编号、CWE编号、提交链接和严重性等级等多个字段,形成了训练与测试两个子集,确保了数据集的实用性和广泛性。
特点
该数据集的特点在于其现实性、全面性和细粒度。它不仅包含了丰富的代码特征,还提供了漏洞的具体位置和相关的元数据信息,如CVE和CWE编号,有助于研究者深入理解漏洞的性质和上下文。此外,数据集的构建过程考虑了真实环境中代码库的多样性,从而使得模型能够更好地泛化到现实世界中的漏洞检测任务。数据集的规模适中,既便于管理又能够提供足够的训练样本,为深度学习模型在漏洞检测领域的应用提供了可靠的支持。
使用方法
使用Partha117/RealVul数据集时,用户可以根据自身的需求选择合适的配置文件,通过HuggingFace提供的平台进行下载和加载。数据集以train和test两个split的形式组织,用户可以分别加载训练集和测试集进行模型的训练和评估。数据集的字段设计使得用户能够方便地进行特征工程和模型构建,进而开展漏洞检测相关的深入研究。同时,数据集的官方文档和论文提供了详尽的背景信息和使用指南,有助于用户更好地理解和利用该数据集。
背景与挑战
背景概述
在软件安全领域,漏洞检测是确保软件安全性的关键环节。Partha117/RealVul数据集,创建于2024年,是由Chakraborty等人通过深入研究而构建的C++漏洞检测数据集。该数据集旨在模拟现实环境中的设置,为深度学习模型在漏洞检测方面的性能评估提供了实证基础。数据集的核心研究问题是提高深度学习在漏洞检测中的准确性和实用性,其研究成果已发表在IEEE Transactions on Software Engineering期刊上,对软件安全领域产生了显著影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 确保数据集的多样性和现实性,以涵盖不同场景下的漏洞特征;2) 处理大量代码片段,并从中提取有效的特征,以供深度学习模型训练使用;3) 评估和优化模型的性能,特别是在真实世界数据上的表现。此外,数据集在解决领域问题方面的挑战包括:如何提高检测的准确性,减少误报和漏报,以及如何适应不断变化的软件环境和漏洞模式。
常用场景
经典使用场景
在软件安全领域,Partha117/RealVul数据集被广泛用于深度学习模型的训练与评估,旨在实现对C++代码段中潜在安全漏洞的自动检测。该数据集提供了代码片段及其是否包含漏洞的标签,使研究人员能够构建并优化模型,以提高漏洞检测的准确性和效率。
衍生相关工作
基于Partha117/RealVul数据集,学术界衍生出了一系列相关研究工作,包括但不限于对现有模型的改进、新型检测算法的探索以及跨语言漏洞检测的研究。这些工作进一步扩展了数据集的应用范围,并推动了软件安全领域的学术进步和技术革新。
数据集最近研究
最新研究方向
在软件安全领域,漏洞检测是保障软件安全性的关键环节。Partha117/RealVul数据集为C++语言漏洞检测提供了一个贴近实际应用场景的基准。该数据集的构建旨在重新审视基于深度学习的漏洞检测方法在现实数据集上的表现,其研究成果已在2024年的IEEE Transactions on Software Engineering上发表。当前研究方向的焦点在于提高漏洞检测的准确性和实用性,通过分析代码片段及其是否包含漏洞的标记,探索深度学习模型在识别软件缺陷方面的潜能。这一研究方向不仅紧跟软件安全领域的热点,对于提升软件质量和安全性也具有重要的实践意义。
以上内容由遇见数据集搜集并总结生成



