five

claudios/VulDeePecker

收藏
Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/claudios/VulDeePecker
下载链接
链接失效反馈
官方服务:
资源简介:
--- arxiv: 1801.01681 dataset_info: features: - name: functionSource dtype: string - name: fName dtype: string - name: oriFile dtype: string - name: startEndLine dtype: string - name: label dtype: int64 - name: vulLine dtype: int64 - name: cwe dtype: string splits: - name: train num_bytes: 114905147 num_examples: 128118 - name: validation num_bytes: 14289221 num_examples: 16015 - name: test num_bytes: 14618528 num_examples: 16015 download_size: 52698659 dataset_size: 143812896 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* task_categories: - text-classification tags: - code --- This is an unofficial HuggingFace version of "[VulDeePecker: A Deep Learning-Based System for Vulnerability Detection ](https://arxiv.org/abs/1801.01681)" dataset. *** Database of "VulDeePecker: A Deep Learning-Based System for Vulnerability Detection" (NDSS'18) *** Code Gadget Database (CGD) focuses on two types of vulnerabilities in C/C++ programs, buffer error vulnerability (CWE-119) and resource management error vulnerability (CWE-399). Each code gadget is composed of a number of program statements (i.e., lines of code), which are related to each other according to the data flow associated to the arguments of some library/API function calls. Based on the National Vulnerability Database (NVD) and the NIST Software Assurance Reference Dataset (SARD) project, we collect 520 open source software program files with corresponding diff files and 8,122 test cases for the buffer error vulnerability, and 320 open source software program files with corresponding diff files and 1,729 test cases for the resource management error vulnerability. In total, the CGD database contains 61,638 code gadgets, including 17,725 code gadgets that are vulnerable and 43,913 code gadgets that are not vulnerable. Among the 17,725 code gadgets that vulnerable, 10,440 corresponds to buffer error vulnerabilities and the rest 7,285 corresponds to resource management error vulnerabilities.

arxiv: 1801.01681 数据集信息: 特征: - 名称:functionSource,数据类型:字符串 - 名称:fName,数据类型:字符串 - 名称:oriFile,数据类型:字符串 - 名称:startEndLine,数据类型:字符串 - 名称:label,数据类型:64位整数 - 名称:vulLine,数据类型:64位整数 - 名称:cwe,数据类型:字符串 数据集划分: - 名称:train(训练集),字节数:114905147,样本数量:128118 - 名称:validation(验证集),字节数:14289221,样本数量:16015 - 名称:test(测试集),字节数:14618528,样本数量:16015 下载大小:52698659,数据集总大小:143812896 配置项: - 配置名称:default,数据文件: - 训练集:data/train-* - 验证集:data/validation-* - 测试集:data/test-* 任务类别:文本分类 标签:代码 本仓库为《VulDeePecker:一种基于深度学习的漏洞检测系统》(https://arxiv.org/abs/1801.01681)数据集的非官方HuggingFace版本。 *** 《VulDeePecker:一种基于深度学习的漏洞检测系统》(NDSS'18)数据集 *** 代码片段数据库(Code Gadget Database, CGD)聚焦C/C++程序中的两类漏洞:缓冲区错误漏洞(CWE-119)与资源管理错误漏洞(CWE-399)。每个代码片段由若干程序语句(即代码行)组成,这些语句依据与特定库/应用程序编程接口(Application Programming Interface, API)函数调用参数相关联的数据流彼此关联。 本数据集基于美国国家漏洞数据库(National Vulnerability Database, NVD)以及美国国家标准与技术研究院(NIST)软件保障参考数据集(Software Assurance Reference Dataset, SARD)项目构建:针对缓冲区错误漏洞,我们收集了520个带对应差异文件的开源软件程序文件与8122个测试用例;针对资源管理错误漏洞,收集了320个带对应差异文件的开源软件程序文件与1729个测试用例。 CGD数据库总计包含61638个代码片段,其中17725个为存在漏洞的代码片段,剩余43913个为无漏洞代码片段。在17725个存在漏洞的代码片段中,10440个对应缓冲区错误漏洞,其余7285个对应资源管理错误漏洞。
提供机构:
claudios
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • functionSource: 字符串类型
    • fName: 字符串类型
    • oriFile: 字符串类型
    • startEndLine: 字符串类型
    • label: 整数类型
    • vulLine: 整数类型
    • cwe: 字符串类型
  • 数据分割:

    • train: 字节数为114905147,样本数为128118
    • validation: 字节数为14289221,样本数为16015
    • test: 字节数为14618528,样本数为16015
  • 数据大小:

    • 下载大小: 52698659字节
    • 数据集大小: 143812896字节

配置信息

  • 默认配置:
    • train数据文件路径: data/train-*
    • validation数据文件路径: data/validation-*
    • test数据文件路径: data/test-*

任务类别

  • 文本分类

标签

  • 代码

数据集内容

  • 数据集关注C/C++程序中的两种漏洞类型:缓冲区错误漏洞(CWE-119)和资源管理错误漏洞(CWE-399)。
  • 基于国家漏洞数据库(NVD)和NIST软件保证参考数据集(SARD)项目,收集了520个开源软件程序文件及其对应的diff文件和8122个缓冲区错误漏洞测试用例,以及320个开源软件程序文件及其对应的diff文件和1729个资源管理错误漏洞测试用例。
  • 总共包含61638个代码片段,其中17725个是易受攻击的,43913个是不易受攻击的。在17725个易受攻击的代码片段中,10440个对应于缓冲区错误漏洞,其余7285个对应于资源管理错误漏洞。
搜集汇总
数据集介绍
main_image_url
构建方式
在深入研究代码漏洞检测的学术领域,'claudios/VulDeePecker'数据集的构建采取了基于代码片段的数据收集策略。该数据集来源于 National Vulnerability Database (NVD) 和 NIST Software Assurance Reference Dataset (SARD) 项目,精心挑选了520个开源软件程序文件及其对应的diff文件,以及8,122个针对缓冲区错误漏洞的测试案例,另外还有320个开源软件程序文件及其对应的diff文件和1,729个针对资源管理错误漏洞的测试案例。数据集的每个代码片段,或称为代码小工具,包含多个程序语句,这些语句通过特定库/API函数调用的参数相关的数据流相互关联。最终构建了一个包含61,638个代码片段的数据集,其中涵盖了17,725个易受攻击的代码片段和43,913个不易受攻击的代码片段。
使用方法
用户可通过对数据集进行下载,并利用HuggingFace提供的加载器直接加载训练、验证和测试数据集。数据集分为三个部分:训练集、验证集和测试集,每个部分都有相应的路径配置,方便用户进行数据加载和预处理。在加载后,用户可以根据具体的研究需求,如文本分类任务,利用这些数据来训练和评估深度学习模型在代码漏洞检测方面的性能。
背景与挑战
背景概述
VulDeePecker数据集,源自于NDSS'18会议论文《VulDeePecker: A Deep Learning-Based System for Vulnerability Detection》,是由研究团队基于深度学习技术构建的用于漏洞检测系统的研究成果。该数据集主要针对C/C++程序中的缓冲区错误漏洞(CWE-119)和资源管理错误漏洞(CWE-399),依托于国家漏洞数据库(NVD)和NIST软件保障参考数据集(SARD)项目,收集了520个开源软件程序文件及其对应的diff文件,以及8122个缓冲区错误漏洞测试案例,320个开源软件程序文件及其对应的diff文件,以及1729个资源管理错误漏洞测试案例。该数据集的构建,对软件安全领域的漏洞检测研究产生了重要影响。
当前挑战
在VulDeePecker数据集的构建过程中,研究团队面临的挑战主要包括两个方面:一是如何准确识别和分类C/C++程序中的安全漏洞,这涉及到对程序语句之间数据流的深入理解和分析;二是如何从海量的开源软件程序中收集和整理出具有代表性的漏洞样本,确保数据集的质量和多样性。此外,数据集标注的一致性和准确性也是构建过程中的一大挑战。
常用场景
经典使用场景
在计算机安全领域,针对代码漏洞检测的研究与应用,VulDeePecker数据集提供了一种基于深度学习的解决方案。其经典的使用场景在于,通过训练模型识别代码片段中的潜在安全漏洞,尤其是针对C/C++程序中的缓冲区错误和资源管理错误。研究者利用该数据集,可以构建出能够自动分析代码并标注出可能存在漏洞的模型,从而提升软件安全性的自动化检测能力。
解决学术问题
VulDeePecker数据集解决了传统漏洞检测方法中人工审查成本高、效率低下的问题。通过深度学习技术,该数据集能够帮助研究者开发出自动化程度更高的漏洞识别工具,这对于提升软件开发的安全性、降低安全漏洞的发现时间具有重大意义。此外,该数据集的构建也为深度学习技术在软件安全领域的应用提供了丰富的实验基础和评价标准。
实际应用
在实际应用中,VulDeePecker数据集的应用场景广泛,包括但不限于代码审查工具的开发、安全漏洞的自动检测与修复建议、软件安全性的量化评估等。它为软件开发者和安全工程师提供了一种高效的安全漏洞识别手段,有助于在软件开发过程中及时发现并修复潜在的安全风险。
数据集最近研究
最新研究方向
在软件安全领域,漏洞检测是保障程序安全性的关键环节。针对此,'claudios/VulDeePecker'数据集应运而生,其基于深度学习系统,专注于C/C++程序中的缓冲区错误和资源管理错误两种类型的漏洞。该数据集的构建基于国家漏洞数据库(NVD)及NIST软件保障参考数据集(SARD)项目,涵盖了520个开源软件程序文件及其对应的差分文件,以及8,122个缓冲区错误漏洞测试案例和1,729个资源管理错误漏洞测试案例。近期研究利用该数据集,不仅提高了漏洞检测的准确性,而且对于理解代码片段之间的数据流关系以及库/API函数调用参数的关联性提供了新的视角,对软件安全领域的发展具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作