five

formai-v2-full

收藏
Hugging Face2024-09-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Joshfcooper/formai-v2-full
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由语言模型生成的C代码,这些代码存在安全漏洞。数据集特征包括类别、文件名、验证完成状态、易受攻击的行、列、函数、违反的属性、错误类型、代码片段、源代码、行数、圈复杂度等。数据集分为训练集,包含331000个样本。
创建时间:
2024-09-03
原始信息汇总

数据集概述

数据集信息

特征

  • category: 字符串类型
  • file_name: 字符串类型
  • verification_finished: 字符串类型
  • vulnerable_line: 64位整数类型
  • column: 64位整数类型
  • function: 字符串类型
  • violated_property: 字符串类型
  • error_type: 字符串类型
  • code_snippet: 字符串类型
  • source_code: 字符串类型
  • num_lines: 64位整数类型
  • cyclomatic_complexity: 32位浮点数类型

数据分割

  • train: 包含331000个样本,总字节数为960684901

数据集大小

  • 下载大小: 133615536字节
  • 数据集大小: 960684901字节

配置

  • default: 包含训练数据文件,路径为data/train-*

数据集来源

  • 仓库: https://github.com/FormAI-Dataset/FormAI-dataset/?tab=readme-ov-file
  • 论文: https://dl.acm.org/doi/10.1145/3617555.3617874

引用

bibtex @inproceedings{10.1145/3617555.3617874, author = {Tihanyi, Norbert and Bisztray, Tamas and Jain, Ridhi and Ferrag, Mohamed Amine and Cordeiro, Lucas C. and Mavroeidis, Vasileios}, title = {The FormAI Dataset: Generative AI in Software Security through the Lens of Formal Verification}, year = {2023}, isbn = {9798400703751}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3617555.3617874}, doi = {10.1145/3617555.3617874}, booktitle = {Proceedings of the 19th International Conference on Predictive Models and Data Analytics in Software Engineering}, pages = {33–43}, numpages = {11}, keywords = {Artificial Intelligence, Dataset, Formal Verification, Large Language Models, Software Security, Vulnerability Classification}, location = {San Francisco, CA, USA}, series = {PROMISE 2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
FormAI-v2-full数据集是通过生成式人工智能技术构建的,专注于软件安全领域中的代码漏洞检测。该数据集包含了由大型语言模型生成的C语言代码片段,这些代码片段经过形式化验证以识别潜在的安全漏洞。数据集的构建过程涉及对代码的静态分析和动态测试,确保每个代码片段都经过严格的漏洞验证和分类。
特点
FormAI-v2-full数据集的特点在于其丰富的元数据信息,包括漏洞类型、违反的属性、代码复杂度等。每个代码片段都标注了详细的漏洞信息,如漏洞所在的行号、列号以及相关的函数名称。此外,数据集还提供了代码的圈复杂度指标,帮助研究人员深入分析代码的结构和潜在风险。这些特征使得该数据集在软件安全研究和漏洞检测领域具有重要的应用价值。
使用方法
FormAI-v2-full数据集的使用方法主要围绕软件安全研究和漏洞检测展开。研究人员可以通过该数据集训练和验证机器学习模型,以提高代码漏洞检测的准确性和效率。数据集中的代码片段和元数据信息可以用于构建分类模型,识别不同类型的漏洞。此外,数据集还可以用于评估形式化验证工具的性能,推动软件安全领域的技术进步。
背景与挑战
背景概述
FormAI-v2-full数据集由Norbert Tihanyi等人于2023年创建,旨在通过形式化验证技术研究生成式人工智能在软件安全领域的应用。该数据集由大量包含安全漏洞的C语言代码片段组成,涵盖了多种漏洞类型和复杂性问题。数据集的核心研究问题在于如何利用形式化验证技术对生成式AI生成的代码进行安全评估,从而提升软件系统的安全性。该数据集在软件工程和安全领域具有重要影响力,为研究人员提供了一个标准化的基准,推动了生成式AI与形式化验证技术的结合研究。
当前挑战
FormAI-v2-full数据集在解决软件安全漏洞检测问题时面临多重挑战。首先,生成式AI生成的代码通常具有较高的复杂性和多样性,如何准确识别和分类其中的安全漏洞是一个技术难题。其次,形式化验证技术的计算复杂度较高,如何在保证验证精度的同时提升效率是另一个关键挑战。此外,数据集的构建过程中,如何确保代码片段的多样性和代表性,以及如何标注和验证漏洞的准确性,也是需要克服的难点。这些挑战不仅影响了数据集的构建质量,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
FormAI-v2-full数据集广泛应用于软件安全领域,特别是在生成式AI和形式验证技术的交叉研究中。该数据集通过提供包含安全漏洞的C代码片段,为研究人员提供了一个标准化的测试平台,用于评估和比较不同AI模型在检测和修复代码漏洞方面的性能。
衍生相关工作
基于FormAI-v2-full数据集,研究人员已经开发了多种先进的漏洞检测模型和工具。例如,一些研究利用该数据集训练深度学习模型,显著提高了漏洞检测的准确性和效率。此外,该数据集还催生了一系列关于生成式AI在软件安全中应用的研究,进一步拓展了AI技术在代码安全领域的应用范围。
数据集最近研究
最新研究方向
随着生成式人工智能在软件开发中的广泛应用,FormAI-v2-full数据集为研究软件安全中的漏洞检测提供了重要资源。该数据集通过形式化验证的方法,结合大语言模型生成的C代码,揭示了代码中的安全漏洞及其分类。当前研究热点集中在利用该数据集进行漏洞分类模型的训练与优化,特别是在复杂代码结构中的漏洞识别与修复。此外,该数据集还为研究生成式AI在软件安全中的潜在风险与挑战提供了实证基础,推动了形式化验证与机器学习在软件工程中的深度融合。这一研究方向不仅提升了软件安全领域的自动化水平,也为未来智能代码生成与安全验证的结合开辟了新的路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作