five

claudios/Draper

收藏
Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/claudios/Draper
下载链接
链接失效反馈
官方服务:
资源简介:
Draper VDISC数据集是一个用于源代码漏洞检测的数据集,包含了从开源软件中挖掘的127万个函数的源代码,并通过静态分析标记了潜在的漏洞。数据集分为训练集、验证集和测试集,比例为80:10:10,文件格式为HDF5。每个函数的源代码以可变长度的UTF-8字符串存储,并提供了五个二进制漏洞标签,分别对应四种最常见的CWE(CWE-120、CWE-119、CWE-469、CWE-476)和其他CWE。该数据集由美国空军研究实验室(AFRL)赞助,作为DARPA MUSE计划的一部分。

Draper VDISC数据集是一个用于源代码漏洞检测的数据集,包含了从开源软件中挖掘的127万个函数的源代码,并通过静态分析标记了潜在的漏洞。数据集分为训练集、验证集和测试集,比例为80:10:10,文件格式为HDF5。每个函数的源代码以可变长度的UTF-8字符串存储,并提供了五个二进制漏洞标签,分别对应四种最常见的CWE(CWE-120、CWE-119、CWE-469、CWE-476)和其他CWE。该数据集由美国空军研究实验室(AFRL)赞助,作为DARPA MUSE计划的一部分。
提供机构:
claudios
原始信息汇总

数据集概述

数据集信息

  • 特征列表

    • functionSource:字符串类型
    • CWE-119:布尔类型
    • CWE-120:布尔类型
    • CWE-469:布尔类型
    • CWE-476:布尔类型
    • CWE-other:布尔类型
    • combine:整数类型
  • 数据分割

    • train:字节数为832092463,样本数为1019471
    • validation:字节数为104260416,样本数为127476
    • test:字节数为104097361,样本数为127419
  • 数据大小

    • 下载大小:535360739字节
    • 数据集大小:1040450240字节

配置信息

  • 默认配置
    • train:路径为data/train-*
    • validation:路径为data/validation-*
    • test:路径为data/test-*

任务类别

  • 文本分类

标签

  • 代码
搜集汇总
数据集介绍
main_image_url
构建方式
claudios/Draper数据集的构建,是通过静态分析开源软件中的127万个函数的源代码,从而标记出潜在的漏洞。该数据集的构建过程涉及对源代码的深入挖掘与分类,每个函数的源代码从函数名开始,以可变长度的UTF-8字符串形式存储,并针对五个常见的漏洞类别(CWE)提供二进制标签。
特点
该数据集的特点在于其涵盖了大量开源软件的函数源代码,并针对源代码中的安全漏洞进行了详细的静态分析标注。数据集按照80:10:10的比例划分为训练集、验证集和测试集,便于模型的训练与评估。此外,数据集提供了针对四个最常见的CWE类别以及其它所有类别的标签,有助于研究者对源代码漏洞检测模型进行深入研究和开发。
使用方法
使用claudios/Draper数据集时,用户可以从HuggingFace的数据集库中直接加载。数据以HDF5格式提供,用户需要使用相应的工具来读取数据。数据集分为训练、验证和测试三个部分,每个部分分别存储在不同的文件中,用户可以根据需要加载相应的文件进行模型训练、验证和测试。在使用该数据集进行研究和发表成果时,需引用相关论文以遵守学术规范。
背景与挑战
背景概述
在计算机安全领域,漏洞检测是确保软件安全性的关键环节。Clarios/Draper数据集,源自2018年的研究《Automated Vulnerability Detection in Source Code Using Deep Representation Learning》,由Draper公司的研究人员创建。该数据集包含了从开源软件中挖掘的1.27百万个函数的源代码,并通过静态分析标记了潜在的漏洞。Draper公司,作为一家独立非营利性机构,致力于为客户提供成功的使命保障,而非追求股东利益。此数据集的构建旨在推动源代码中漏洞自动检测技术的发展,对于提升软件安全性具有重要意义。
当前挑战
该数据集在构建和应用过程中面临多项挑战。研究领域问题方面,由于源代码的复杂性和多样性,如何精确地识别和分类各种漏洞类型成为一大挑战。在构建过程中,数据集的标注质量、样本的均衡性以及数据集规模的确定都是关键的技术难题。此外,数据集在涵盖常见漏洞类型(如CWE-120、CWE-119等)的同时,还需处理多个标签的问题,即一个函数可能存在多个漏洞标签,这为后续的数据处理和分析带来了额外的挑战。
常用场景
经典使用场景
在软件工程与安全领域,claudios/Draper数据集被广泛应用于源代码中潜在安全漏洞的自动检测。该数据集通过静态分析开源软件中挖掘的127万个函数的源代码,为研究者提供了一个功能丰富的实验平台,其经典使用场景在于构建深度学习模型以识别源代码中的安全漏洞,如CWE-119、CWE-120等。
实际应用
在实际应用中,claudios/Draper数据集的应用场景广泛,包括但不限于软件安全审计、自动化的代码审查系统以及漏洞修复建议工具,为软件安全性的提升提供了数据基础和技术支持。
衍生相关工作
基于claudios/Draper数据集的研究衍生出了一系列相关工作,包括改进的漏洞检测模型、源代码表示学习方法以及安全漏洞的自动修复技术,这些研究进一步扩展了数据集的学术影响力,并推动了相关领域的科技进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作