formai-v2-full

Hugging Face2024-09-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Joshfcooper/formai-v2-full

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由语言模型生成的C代码，这些代码存在安全漏洞。数据集特征包括类别、文件名、验证完成状态、易受攻击的行、列、函数、违反的属性、错误类型、代码片段、源代码、行数、圈复杂度等。数据集分为训练集，包含331000个样本。

创建时间：

2024-09-03

原始信息汇总

数据集概述

数据集信息

特征

category: 字符串类型
file_name: 字符串类型
verification_finished: 字符串类型
vulnerable_line: 64位整数类型
column: 64位整数类型
function: 字符串类型
violated_property: 字符串类型
error_type: 字符串类型
code_snippet: 字符串类型
source_code: 字符串类型
num_lines: 64位整数类型
cyclomatic_complexity: 32位浮点数类型

数据分割

train: 包含331000个样本，总字节数为960684901

数据集大小

下载大小: 133615536字节
数据集大小: 960684901字节

配置

default: 包含训练数据文件，路径为data/train-*

数据集来源

仓库: https://github.com/FormAI-Dataset/FormAI-dataset/?tab=readme-ov-file
论文: https://dl.acm.org/doi/10.1145/3617555.3617874

引用

bibtex @inproceedings{10.1145/3617555.3617874, author = {Tihanyi, Norbert and Bisztray, Tamas and Jain, Ridhi and Ferrag, Mohamed Amine and Cordeiro, Lucas C. and Mavroeidis, Vasileios}, title = {The FormAI Dataset: Generative AI in Software Security through the Lens of Formal Verification}, year = {2023}, isbn = {9798400703751}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3617555.3617874}, doi = {10.1145/3617555.3617874}, booktitle = {Proceedings of the 19th International Conference on Predictive Models and Data Analytics in Software Engineering}, pages = {33–43}, numpages = {11}, keywords = {Artificial Intelligence, Dataset, Formal Verification, Large Language Models, Software Security, Vulnerability Classification}, location = {San Francisco, CA, USA}, series = {PROMISE 2023} }

搜集汇总

数据集介绍

构建方式

FormAI-v2-full数据集是通过生成式人工智能技术构建的，专注于软件安全领域中的代码漏洞检测。该数据集包含了由大型语言模型生成的C语言代码片段，这些代码片段经过形式化验证以识别潜在的安全漏洞。数据集的构建过程涉及对代码的静态分析和动态测试，确保每个代码片段都经过严格的漏洞验证和分类。

特点

FormAI-v2-full数据集的特点在于其丰富的元数据信息，包括漏洞类型、违反的属性、代码复杂度等。每个代码片段都标注了详细的漏洞信息，如漏洞所在的行号、列号以及相关的函数名称。此外，数据集还提供了代码的圈复杂度指标，帮助研究人员深入分析代码的结构和潜在风险。这些特征使得该数据集在软件安全研究和漏洞检测领域具有重要的应用价值。

使用方法

FormAI-v2-full数据集的使用方法主要围绕软件安全研究和漏洞检测展开。研究人员可以通过该数据集训练和验证机器学习模型，以提高代码漏洞检测的准确性和效率。数据集中的代码片段和元数据信息可以用于构建分类模型，识别不同类型的漏洞。此外，数据集还可以用于评估形式化验证工具的性能，推动软件安全领域的技术进步。

背景与挑战

背景概述

FormAI-v2-full数据集由Norbert Tihanyi等人于2023年创建，旨在通过形式化验证技术研究生成式人工智能在软件安全领域的应用。该数据集由大量包含安全漏洞的C语言代码片段组成，涵盖了多种漏洞类型和复杂性问题。数据集的核心研究问题在于如何利用形式化验证技术对生成式AI生成的代码进行安全评估，从而提升软件系统的安全性。该数据集在软件工程和安全领域具有重要影响力，为研究人员提供了一个标准化的基准，推动了生成式AI与形式化验证技术的结合研究。

当前挑战

FormAI-v2-full数据集在解决软件安全漏洞检测问题时面临多重挑战。首先，生成式AI生成的代码通常具有较高的复杂性和多样性，如何准确识别和分类其中的安全漏洞是一个技术难题。其次，形式化验证技术的计算复杂度较高，如何在保证验证精度的同时提升效率是另一个关键挑战。此外，数据集的构建过程中，如何确保代码片段的多样性和代表性，以及如何标注和验证漏洞的准确性，也是需要克服的难点。这些挑战不仅影响了数据集的构建质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

FormAI-v2-full数据集广泛应用于软件安全领域，特别是在生成式AI和形式验证技术的交叉研究中。该数据集通过提供包含安全漏洞的C代码片段，为研究人员提供了一个标准化的测试平台，用于评估和比较不同AI模型在检测和修复代码漏洞方面的性能。

衍生相关工作

基于FormAI-v2-full数据集，研究人员已经开发了多种先进的漏洞检测模型和工具。例如，一些研究利用该数据集训练深度学习模型，显著提高了漏洞检测的准确性和效率。此外，该数据集还催生了一系列关于生成式AI在软件安全中应用的研究，进一步拓展了AI技术在代码安全领域的应用范围。

数据集最近研究