benjis/bigvul

Name: benjis/bigvul
Creator: benjis
Published: 2023-08-31 03:02:50
License: 暂无描述

Hugging Face2023-08-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/benjis/bigvul

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: CVE ID dtype: string - name: CVE Page dtype: string - name: CWE ID dtype: string - name: codeLink dtype: string - name: commit_id dtype: string - name: commit_message dtype: string - name: func_after dtype: string - name: func_before dtype: string - name: lang dtype: string - name: project dtype: string - name: vul dtype: int8 splits: - name: train num_bytes: 404950685.2579571 num_examples: 150908 - name: validation num_bytes: 88684597.21877055 num_examples: 33049 - name: test num_bytes: 88687280.64632414 num_examples: 33050 download_size: 252969708 dataset_size: 582322563.1230518 --- # Dataset Card for "bigvul" Unofficial, not affiliated with the authors. - **Paper:** https://doi.org/10.1145/3379597.3387501 - **Repository:** https://github.com/ZeoVan/MSR_20_Code_vulnerability_CSV_Dataset

配置项： - 配置名称：默认（default）数据文件： - 划分集：训练集（train），路径：data/train-* - 划分集：验证集（validation），路径：data/validation-* - 划分集：测试集（test），路径：data/test-* 数据集信息：特征字段： - 字段名：通用漏洞与暴露编号 (CVE ID)，数据类型：字符串 - 字段名：CVE 页面 (CVE Page)，数据类型：字符串 - 字段名：通用弱点枚举编号 (CWE ID)，数据类型：字符串 - 字段名：代码链接 (codeLink)，数据类型：字符串 - 字段名：提交ID (commit_id)，数据类型：字符串 - 字段名：提交信息 (commit_message)，数据类型：字符串 - 字段名：修复后代码片段 (func_after)，数据类型：字符串 - 字段名：修复前代码片段 (func_before)，数据类型：字符串 - 字段名：编程语言 (lang)，数据类型：字符串 - 字段名：项目名称 (project)，数据类型：字符串 - 字段名：漏洞标记 (vul)，数据类型：8位整数类型划分集详情： - 划分集名称：训练集（train），字节数：404950685.2579571，样本数量：150908 - 划分集名称：验证集（validation），字节数：88684597.21877055，样本数量：33049 - 划分集名称：测试集（test），字节数：88687280.64632414，样本数量：33050 下载大小：252969708 数据集总大小：582322563.1230518 --- # "bigvul"数据集卡片本数据集为非官方版本，与原作者无关联。 - **论文链接**：https://doi.org/10.1145/3379597.3387501 - **代码仓库**：https://github.com/ZeoVan/MSR_20_Code_vulnerability_CSV_Dataset

提供机构：

benjis

原始信息汇总

数据集概述

数据集配置

默认配置：
- 训练集：路径为 data/train-*
- 验证集：路径为 data/validation-*
- 测试集：路径为 data/test-*

数据集信息

特征：
- CVE ID：类型为字符串
- CVE Page：类型为字符串
- CWE ID：类型为字符串
- codeLink：类型为字符串
- commit_id：类型为字符串
- commit_message：类型为字符串
- func_after：类型为字符串
- func_before：类型为字符串
- lang：类型为字符串
- project：类型为字符串
- vul：类型为整数（int8）
数据分割：
- 训练集：
  - 字节数：404950685.2579571
  - 样本数：150908
- 验证集：
  - 字节数：88684597.21877055
  - 样本数：33049
- 测试集：
  - 字节数：88687280.64632414
  - 样本数：33050
数据集大小：
- 下载大小：252969708 字节
- 数据集总大小：582322563.1230518 字节

搜集汇总

数据集介绍

构建方式

bigvul数据集的构建基于对开源代码库的深入分析，特别是针对已知漏洞的代码片段。通过从公共漏洞数据库（如CVE）中提取漏洞信息，并结合GitHub等平台上的代码提交记录，数据集涵盖了修复前后的代码变化。数据集的构建过程包括对代码片段的提取、漏洞标签的标注以及相关元数据的收集，确保了数据的全面性和准确性。

使用方法

bigvul数据集的使用方法多样，适用于代码漏洞检测、修复模式分析以及漏洞预测等研究任务。研究人员可以通过加载数据集中的训练、验证和测试集，利用机器学习或深度学习模型进行漏洞检测实验。数据集的结构化格式便于直接用于模型训练，同时其丰富的元数据也为进一步的分析和可视化提供了便利。

背景与挑战

背景概述

BigVul数据集由ZeoVan等人于2020年创建，旨在为代码漏洞检测领域提供大规模、高质量的数据支持。该数据集基于公开的CVE（Common Vulnerabilities and Exposures）数据库，涵盖了多种编程语言的代码片段，并标注了漏洞修复前后的代码变化。BigVul的创建填补了代码漏洞检测领域数据集的空白，为研究人员提供了丰富的实验材料，推动了自动化漏洞检测技术的发展。该数据集的研究成果发表在MSR（Mining Software Repositories）会议上，对软件安全领域产生了深远影响。

当前挑战

BigVul数据集在解决代码漏洞检测问题时面临多重挑战。首先，代码漏洞的多样性和复杂性使得数据标注和分类变得极为困难，尤其是跨编程语言的漏洞模式识别。其次，数据集的构建过程中，如何从海量的CVE数据中提取有效的代码片段并确保其准确性，是一个巨大的技术难题。此外，数据集中包含的代码片段可能涉及版权和隐私问题，这为数据的公开和使用带来了法律和伦理上的挑战。这些问题的解决需要跨学科的合作与技术创新。

常用场景

经典使用场景

在软件安全领域，bigvul数据集被广泛用于训练和评估代码漏洞检测模型。该数据集包含了大量的代码片段及其对应的漏洞标签，使得研究人员能够通过机器学习方法识别潜在的代码漏洞。通过分析代码的前后变化，模型能够学习到漏洞修复的模式，从而提升漏洞检测的准确性。

解决学术问题

bigvul数据集解决了代码漏洞检测中的关键问题，即如何从大规模代码库中自动识别和分类漏洞。通过提供丰富的代码变更记录和漏洞标签，该数据集为研究人员提供了宝贵的实验材料，推动了基于机器学习的漏洞检测技术的发展。这一进展不仅提升了漏洞检测的效率，还为软件安全领域的自动化工具开发奠定了基础。

实际应用

在实际应用中，bigvul数据集被用于构建自动化漏洞扫描工具，帮助开发者在代码提交前识别潜在的安全风险。通过集成到持续集成/持续部署（CI/CD）流程中，这些工具能够在代码部署前自动检测漏洞，从而减少生产环境中的安全漏洞。此外，该数据集还被用于安全审计和代码审查，帮助安全团队快速定位和修复漏洞。

数据集最近研究