claudios/Draper

Name: claudios/Draper
Creator: claudios
Published: 2024-01-05 22:41:42
License: 暂无描述

Hugging Face2024-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/claudios/Draper

下载链接

链接失效反馈

官方服务：

资源简介：

Draper VDISC数据集是一个用于源代码漏洞检测的数据集，包含了从开源软件中挖掘的127万个函数的源代码，并通过静态分析标记了潜在的漏洞。数据集分为训练集、验证集和测试集，比例为80:10:10，文件格式为HDF5。每个函数的源代码以可变长度的UTF-8字符串存储，并提供了五个二进制漏洞标签，分别对应四种最常见的CWE（CWE-120、CWE-119、CWE-469、CWE-476）和其他CWE。该数据集由美国空军研究实验室（AFRL）赞助，作为DARPA MUSE计划的一部分。

提供机构：

claudios

原始信息汇总

数据集概述

数据集信息

特征列表：
- functionSource：字符串类型
- CWE-119：布尔类型
- CWE-120：布尔类型
- CWE-469：布尔类型
- CWE-476：布尔类型
- CWE-other：布尔类型
- combine：整数类型
数据分割：
- train：字节数为832092463，样本数为1019471
- validation：字节数为104260416，样本数为127476
- test：字节数为104097361，样本数为127419
数据大小：
- 下载大小：535360739字节
- 数据集大小：1040450240字节

配置信息

默认配置：
- train：路径为data/train-*
- validation：路径为data/validation-*
- test：路径为data/test-*

任务类别

文本分类

claudios/Draper数据集的构建，是通过静态分析开源软件中的127万个函数的源代码，从而标记出潜在的漏洞。该数据集的构建过程涉及对源代码的深入挖掘与分类，每个函数的源代码从函数名开始，以可变长度的UTF-8字符串形式存储，并针对五个常见的漏洞类别（CWE）提供二进制标签。

特点

该数据集的特点在于其涵盖了大量开源软件的函数源代码，并针对源代码中的安全漏洞进行了详细的静态分析标注。数据集按照80:10:10的比例划分为训练集、验证集和测试集，便于模型的训练与评估。此外，数据集提供了针对四个最常见的CWE类别以及其它所有类别的标签，有助于研究者对源代码漏洞检测模型进行深入研究和开发。

使用方法

使用claudios/Draper数据集时，用户可以从HuggingFace的数据集库中直接加载。数据以HDF5格式提供，用户需要使用相应的工具来读取数据。数据集分为训练、验证和测试三个部分，每个部分分别存储在不同的文件中，用户可以根据需要加载相应的文件进行模型训练、验证和测试。在使用该数据集进行研究和发表成果时，需引用相关论文以遵守学术规范。

背景与挑战

背景概述

在计算机安全领域，漏洞检测是确保软件安全性的关键环节。Clarios/Draper数据集，源自2018年的研究《Automated Vulnerability Detection in Source Code Using Deep Representation Learning》，由Draper公司的研究人员创建。该数据集包含了从开源软件中挖掘的1.27百万个函数的源代码，并通过静态分析标记了潜在的漏洞。Draper公司，作为一家独立非营利性机构，致力于为客户提供成功的使命保障，而非追求股东利益。此数据集的构建旨在推动源代码中漏洞自动检测技术的发展，对于提升软件安全性具有重要意义。

当前挑战

该数据集在构建和应用过程中面临多项挑战。研究领域问题方面，由于源代码的复杂性和多样性，如何精确地识别和分类各种漏洞类型成为一大挑战。在构建过程中，数据集的标注质量、样本的均衡性以及数据集规模的确定都是关键的技术难题。此外，数据集在涵盖常见漏洞类型（如CWE-120、CWE-119等）的同时，还需处理多个标签的问题，即一个函数可能存在多个漏洞标签，这为后续的数据处理和分析带来了额外的挑战。

常用场景

经典使用场景

在软件工程与安全领域，claudios/Draper数据集被广泛应用于源代码中潜在安全漏洞的自动检测。该数据集通过静态分析开源软件中挖掘的127万个函数的源代码，为研究者提供了一个功能丰富的实验平台，其经典使用场景在于构建深度学习模型以识别源代码中的安全漏洞，如CWE-119、CWE-120等。

实际应用

在实际应用中，claudios/Draper数据集的应用场景广泛，包括但不限于软件安全审计、自动化的代码审查系统以及漏洞修复建议工具，为软件安全性的提升提供了数据基础和技术支持。

衍生相关工作

基于claudios/Draper数据集的研究衍生出了一系列相关工作，包括改进的漏洞检测模型、源代码表示学习方法以及安全漏洞的自动修复技术，这些研究进一步扩展了数据集的学术影响力，并推动了相关领域的科技进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集