five

claudios/D2A

收藏
Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/claudios/D2A
下载链接
链接失效反馈
官方服务:
资源简介:
D2A数据集是一个用于基于AI的漏洞检测方法的数据集,特别适用于通过差异分析来检测代码中的漏洞。数据集包含多个配置,每个配置有不同的特征和分割。每个样本都有一个唯一的ID、标签、bug的URL、bug所在的函数代码、以及相关的函数代码。标签为0表示没有漏洞,标签为1表示存在漏洞。数据集还包含了由Infer静态分析器生成的bug跟踪信息。

D2A数据集是一个用于基于AI的漏洞检测方法的数据集,特别适用于通过差异分析来检测代码中的漏洞。数据集包含多个配置,每个配置有不同的特征和分割。每个样本都有一个唯一的ID、标签、bug的URL、bug所在的函数代码、以及相关的函数代码。标签为0表示没有漏洞,标签为1表示存在漏洞。数据集还包含了由Infer静态分析器生成的bug跟踪信息。
提供机构:
claudios
原始信息汇总

D2A 数据集概述

数据集配置

配置名称:code

  • 特征
    • id: int64
    • label: int64
    • bug_url: string
    • bug_function: string
    • functions: string
  • 分割
    • train: 36719个样本,357876131字节
    • dev: 4634个样本,48017743字节
    • test: 4604个样本,43035964字节
  • 下载大小:139316551字节
  • 数据集大小:448929838字节

配置名称:code_trace

  • 特征
    • id: int64
    • label: int64
    • trace: string
    • bug_url: string
    • bug_function: string
    • functions: string
  • 分割
    • train: 36719个样本,531973771字节
    • dev: 4634个样本,66958385字节
    • test: 4604个样本,64518442字节
  • 下载大小:208837991字节
  • 数据集大小:663450598字节

配置名称:function

  • 特征
    • id: int64
    • label: int64
    • code: string
  • 分割
    • train: 4643个样本,8913129字节
    • dev: 596个样本,1107843字节
    • test: 618个样本,1193137字节
  • 下载大小:4715682字节
  • 数据集大小:11214109字节

配置名称:trace

  • 特征
    • id: int64
    • label: int64
    • trace: string
  • 分割
    • train: 36719个样本,174685144字节
    • dev: 4634个样本,19014786字节
    • test: 4604个样本,21556142字节
  • 下载大小:68014392字节
  • 数据集大小:215256072字节

数据文件路径

  • code
    • train: code/train-*
    • dev: code/dev-*
    • test: code/test-*
  • code_trace
    • train: code_trace/train-*
    • dev: code_trace/dev-*
    • test: code_trace/test-*
  • function
    • train: function/train-*
    • dev: function/dev-*
    • test: function/test-*
  • trace
    • train: trace/train-*
    • dev: trace/dev-*
    • test: trace/test-*

许可证

  • apache-2.0

任务类别

  • text-classification

标签

  • code
搜集汇总
数据集介绍
main_image_url
构建方式
D2A数据集旨在通过差分分析技术,为基于人工智能的漏洞检测方法提供训练数据。该数据集由IBM创建,包含了来自Libav、OpenSSL、Nginx、Httpd和Libtiff等开源项目中的安全漏洞数据。数据集的构建涉及对源代码的静态分析,使用Infer静态分析器生成漏洞报告和函数调用轨迹。数据集分为四个任务,每个任务包含训练集、验证集和测试集,其中测试集不提供标签,用于评估模型的泛化能力。
使用方法
使用D2A数据集时,首先需要通过HuggingFace的`load_dataset`函数加载所需的数据集变体,例如使用"code"、"code_trace"、"function"或"trace"。加载后,数据集将以字典形式返回,包含训练集、验证集和测试集。每个数据集变体都包含了不同类型的数据,例如"code"变体包含了漏洞函数的源代码,"code_trace"变体包含了漏洞函数的源代码和调用轨迹。使用数据集时,可以根据需要选择相应的变体进行模型训练和评估。
背景与挑战
背景概述
在软件安全领域,漏洞检测是保障软件质量的关键环节。D2A数据集应运而生,旨在为基于人工智能的漏洞检测方法提供研究资源。该数据集由IBM的研究团队创建,基于Libav、OpenSSL、Nginx、Httpd和Libtiff等开源项目中的默认安全错误构建而成。D2A数据集的核心研究问题是利用人工智能技术,通过差异分析方法,提高软件漏洞检测的准确性和效率。该数据集的发布对于推动软件安全领域的研究具有重要的意义。
当前挑战
D2A数据集面临的挑战主要包括:1)领域问题挑战:如何利用人工智能技术准确识别和定位软件中的漏洞;2)构建过程中的挑战:如何确保数据集的多样性和代表性,以及如何处理数据集中的噪声和冗余信息。针对这些挑战,研究者需要不断探索和改进算法,以提高漏洞检测的准确性和效率。同时,也需要关注数据集的质量,确保其能够真实反映软件安全领域的实际情况。
常用场景
经典使用场景
D2A数据集是专为基于人工智能的漏洞检测方法使用差异分析构建的。其最经典的使用场景在于对源代码进行漏洞检测,通过差异分析技术识别潜在的安全缺陷。该数据集提供了丰富的代码示例和漏洞跟踪信息,使得研究者可以训练和测试他们的漏洞检测模型。此外,D2A数据集还包含了代码功能、跟踪和完整源代码等特征,为研究者提供了深入的代码理解,从而提高漏洞检测的准确性和效率。
解决学术问题
D2A数据集解决了传统的漏洞检测方法在处理大规模代码时的效率低下问题。通过提供差异分析技术,D2A数据集可以快速识别代码中的潜在漏洞,为研究者提供了一个高效的漏洞检测平台。此外,D2A数据集还包含了丰富的代码特征和漏洞跟踪信息,为研究者提供了深入理解代码和漏洞的途径,从而提高了漏洞检测的准确性和效率。
实际应用
D2A数据集在实际应用中,可以帮助开发人员快速识别和修复代码中的漏洞,提高软件的安全性。通过使用差异分析技术,D2A数据集可以快速识别代码中的潜在漏洞,为开发人员提供及时的反馈,从而避免了潜在的安全风险。此外,D2A数据集还可以用于构建漏洞检测工具和平台,为开发人员提供高效的漏洞检测服务。
数据集最近研究
最新研究方向
D2A数据集是专门为基于人工智能的漏洞检测方法构建的,它通过差异分析来识别潜在的软件漏洞。该数据集的最新研究方向集中在利用深度学习和自然语言处理技术,从源代码中自动识别安全漏洞。当前的热点事件包括开源社区对安全漏洞的持续关注,以及如何提高漏洞检测的准确性和效率。D2A数据集的研究对于提升软件安全性具有重要意义,它有助于开发更有效的漏洞检测工具,从而减少因软件漏洞导致的安全事故。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作