benjis/bigvul
收藏Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/benjis/bigvul
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: CVE ID
dtype: string
- name: CVE Page
dtype: string
- name: CWE ID
dtype: string
- name: codeLink
dtype: string
- name: commit_id
dtype: string
- name: commit_message
dtype: string
- name: func_after
dtype: string
- name: func_before
dtype: string
- name: lang
dtype: string
- name: project
dtype: string
- name: vul
dtype: int8
splits:
- name: train
num_bytes: 404950685.2579571
num_examples: 150908
- name: validation
num_bytes: 88684597.21877055
num_examples: 33049
- name: test
num_bytes: 88687280.64632414
num_examples: 33050
download_size: 252969708
dataset_size: 582322563.1230518
---
# Dataset Card for "bigvul"
Unofficial, not affiliated with the authors.
- **Paper:** https://doi.org/10.1145/3379597.3387501
- **Repository:** https://github.com/ZeoVan/MSR_20_Code_vulnerability_CSV_Dataset
配置项:
- 配置名称:默认(default)
数据文件:
- 划分集:训练集(train),路径:data/train-*
- 划分集:验证集(validation),路径:data/validation-*
- 划分集:测试集(test),路径:data/test-*
数据集信息:
特征字段:
- 字段名:通用漏洞与暴露编号 (CVE ID),数据类型:字符串
- 字段名:CVE 页面 (CVE Page),数据类型:字符串
- 字段名:通用弱点枚举编号 (CWE ID),数据类型:字符串
- 字段名:代码链接 (codeLink),数据类型:字符串
- 字段名:提交ID (commit_id),数据类型:字符串
- 字段名:提交信息 (commit_message),数据类型:字符串
- 字段名:修复后代码片段 (func_after),数据类型:字符串
- 字段名:修复前代码片段 (func_before),数据类型:字符串
- 字段名:编程语言 (lang),数据类型:字符串
- 字段名:项目名称 (project),数据类型:字符串
- 字段名:漏洞标记 (vul),数据类型:8位整数类型
划分集详情:
- 划分集名称:训练集(train),字节数:404950685.2579571,样本数量:150908
- 划分集名称:验证集(validation),字节数:88684597.21877055,样本数量:33049
- 划分集名称:测试集(test),字节数:88687280.64632414,样本数量:33050
下载大小:252969708
数据集总大小:582322563.1230518
---
# "bigvul"数据集卡片
本数据集为非官方版本,与原作者无关联。
- **论文链接**:https://doi.org/10.1145/3379597.3387501
- **代码仓库**:https://github.com/ZeoVan/MSR_20_Code_vulnerability_CSV_Dataset
提供机构:
benjis
原始信息汇总
数据集概述
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
-
特征:
- CVE ID:类型为字符串
- CVE Page:类型为字符串
- CWE ID:类型为字符串
- codeLink:类型为字符串
- commit_id:类型为字符串
- commit_message:类型为字符串
- func_after:类型为字符串
- func_before:类型为字符串
- lang:类型为字符串
- project:类型为字符串
- vul:类型为整数(int8)
-
数据分割:
- 训练集:
- 字节数:404950685.2579571
- 样本数:150908
- 验证集:
- 字节数:88684597.21877055
- 样本数:33049
- 测试集:
- 字节数:88687280.64632414
- 样本数:33050
- 训练集:
-
数据集大小:
- 下载大小:252969708 字节
- 数据集总大小:582322563.1230518 字节
搜集汇总
数据集介绍

构建方式
bigvul数据集的构建基于对开源代码库的深入分析,特别是针对已知漏洞的代码片段。通过从公共漏洞数据库(如CVE)中提取漏洞信息,并结合GitHub等平台上的代码提交记录,数据集涵盖了修复前后的代码变化。数据集的构建过程包括对代码片段的提取、漏洞标签的标注以及相关元数据的收集,确保了数据的全面性和准确性。
使用方法
bigvul数据集的使用方法多样,适用于代码漏洞检测、修复模式分析以及漏洞预测等研究任务。研究人员可以通过加载数据集中的训练、验证和测试集,利用机器学习或深度学习模型进行漏洞检测实验。数据集的结构化格式便于直接用于模型训练,同时其丰富的元数据也为进一步的分析和可视化提供了便利。
背景与挑战
背景概述
BigVul数据集由ZeoVan等人于2020年创建,旨在为代码漏洞检测领域提供大规模、高质量的数据支持。该数据集基于公开的CVE(Common Vulnerabilities and Exposures)数据库,涵盖了多种编程语言的代码片段,并标注了漏洞修复前后的代码变化。BigVul的创建填补了代码漏洞检测领域数据集的空白,为研究人员提供了丰富的实验材料,推动了自动化漏洞检测技术的发展。该数据集的研究成果发表在MSR(Mining Software Repositories)会议上,对软件安全领域产生了深远影响。
当前挑战
BigVul数据集在解决代码漏洞检测问题时面临多重挑战。首先,代码漏洞的多样性和复杂性使得数据标注和分类变得极为困难,尤其是跨编程语言的漏洞模式识别。其次,数据集的构建过程中,如何从海量的CVE数据中提取有效的代码片段并确保其准确性,是一个巨大的技术难题。此外,数据集中包含的代码片段可能涉及版权和隐私问题,这为数据的公开和使用带来了法律和伦理上的挑战。这些问题的解决需要跨学科的合作与技术创新。
常用场景
经典使用场景
在软件安全领域,bigvul数据集被广泛用于训练和评估代码漏洞检测模型。该数据集包含了大量的代码片段及其对应的漏洞标签,使得研究人员能够通过机器学习方法识别潜在的代码漏洞。通过分析代码的前后变化,模型能够学习到漏洞修复的模式,从而提升漏洞检测的准确性。
解决学术问题
bigvul数据集解决了代码漏洞检测中的关键问题,即如何从大规模代码库中自动识别和分类漏洞。通过提供丰富的代码变更记录和漏洞标签,该数据集为研究人员提供了宝贵的实验材料,推动了基于机器学习的漏洞检测技术的发展。这一进展不仅提升了漏洞检测的效率,还为软件安全领域的自动化工具开发奠定了基础。
实际应用
在实际应用中,bigvul数据集被用于构建自动化漏洞扫描工具,帮助开发者在代码提交前识别潜在的安全风险。通过集成到持续集成/持续部署(CI/CD)流程中,这些工具能够在代码部署前自动检测漏洞,从而减少生产环境中的安全漏洞。此外,该数据集还被用于安全审计和代码审查,帮助安全团队快速定位和修复漏洞。
数据集最近研究
最新研究方向
在软件安全领域,漏洞检测与修复一直是研究的热点。bigvul数据集以其丰富的漏洞代码样本和详细的元数据,为研究者提供了宝贵的资源。近年来,基于深度学习的漏洞检测方法逐渐成为主流,bigvul数据集被广泛应用于训练和评估这些模型。研究者们通过分析代码的语义和结构特征,结合自然语言处理技术,开发出能够自动识别和修复漏洞的智能系统。这些研究不仅提升了漏洞检测的准确性和效率,还为软件安全领域的自动化工具开发奠定了基础。bigvul数据集的广泛应用,推动了软件安全研究的深入发展,具有重要的学术和实际意义。
以上内容由遇见数据集搜集并总结生成



