five

euisuh15/gpt89

收藏
Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euisuh15/gpt89
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于生成包含SQL漏洞的代码,并通过Bandit工具检测漏洞的存在。数据集包含多个字段,如数据ID、函数名称、描述、使用的包、GPT生成的代码、从GPT列提取的代码、Bandit工具对代码的检测结果、标签(表示是否存在CWE89漏洞)、处理后的代码(如果存在漏洞则注入漏洞)、处理后的输入(移除函数名称)、模式(0表示训练,1表示测试1,2表示测试2)、修复后的代码(如果存在漏洞则注入修复后的代码)、修复后的输入(移除函数名称)。这些字段用于生成、检测、注入和修复SQL漏洞。

该数据集主要用于生成包含SQL漏洞的代码,并通过Bandit工具检测漏洞的存在。数据集包含多个字段,如数据ID、函数名称、描述、使用的包、GPT生成的代码、从GPT列提取的代码、Bandit工具对代码的检测结果、标签(表示是否存在CWE89漏洞)、处理后的代码(如果存在漏洞则注入漏洞)、处理后的输入(移除函数名称)、模式(0表示训练,1表示测试1,2表示测试2)、修复后的代码(如果存在漏洞则注入修复后的代码)、修复后的输入(移除函数名称)。这些字段用于生成、检测、注入和修复SQL漏洞。
提供机构:
euisuh15
原始信息汇总

数据集概述

数据字段说明

  • id: 数据的唯一标识符。
  • func_name: 模型通常生成的包含SQL漏洞的函数。
  • description: func_name的描述。
  • package: 函数使用的包。
  • GPT: 生成代码的GPT响应。
  • codes: 从GPT列中提取的代码。
  • bandit-out: 对codes列的Bandit结果。
  • label: 如果Bandit检测到CWE89存在,则为真。
  • processed_codes: 如果label为真,则注入漏洞(black+变量名)。
  • processed_input: 从processed_codes中移除func_name
  • mode: 训练模式或测试模式(0表示训练,1表示测试1,2表示测试2)。
  • fixed_codes: 如果label为真,则注入修复后的漏洞。
  • fixed_input: 从fixed_codes中移除func_name
搜集汇总
数据集介绍
main_image_url
构建方式
在软件安全领域,识别和修复代码漏洞是保障系统安全的关键环节。GPT89数据集的构建过程体现了这一需求,它通过自动化流程生成并标注含有SQL注入漏洞的代码样本。具体而言,数据集首先利用GPT模型根据函数名称和描述生成代码片段,随后运用Bandit安全工具对生成的代码进行静态分析,检测是否存在CWE-89(SQL注入)漏洞。根据检测结果,数据集为每个样本标注了标签,并进一步处理代码,通过注入漏洞标记或修复版本,形成了包含原始代码、处理后的代码及修复代码的多版本结构。整个构建过程涵盖了训练集与两个测试集的划分,确保了数据在模型训练与评估中的实用性。
特点
GPT89数据集在代码安全分析领域展现出独特的特点,其核心在于专注于SQL注入漏洞的模拟与修复。数据集不仅提供了原始的GPT生成代码,还包含了经过Bandit工具验证的漏洞标签,以及处理后的代码版本,如注入漏洞标记的processed_codes和修复后的fixed_codes。这种多维度结构使得数据集能够支持漏洞检测、代码修复等多种任务。此外,数据集的划分模式(训练集、测试集1和测试集2)增强了其评估的鲁棒性,适用于机器学习模型在安全场景下的训练与测试。整体而言,数据集以实际代码生成为基础,结合自动化工具,提供了高质量、结构化的安全研究资源。
使用方法
使用GPT89数据集时,研究者可基于其结构化字段开展多样化的安全分析任务。例如,通过func_name和description字段,可以训练模型生成安全代码;利用codes和label字段,能够构建漏洞检测模型,识别SQL注入风险;而processed_codes和fixed_codes字段则支持代码修复或漏洞注入研究,帮助模型学习如何从有漏洞代码过渡到安全版本。数据集的mode字段(0、1、2)指导用户进行训练与测试分割,确保实验的严谨性。在实际应用中,建议先预处理数据,如提取关键特征或标准化代码格式,再结合机器学习算法进行模型开发与评估,以提升代码安全性的自动化水平。
背景与挑战
背景概述
在软件安全领域,SQL注入漏洞作为常见的安全威胁,长期困扰着开发实践。euisuh15/gpt89数据集由相关研究人员于近年构建,聚焦于利用生成式预训练模型自动生成代码时可能引入的SQL注入漏洞。该数据集的核心研究问题在于探索人工智能辅助编程中的安全隐患,特别是模型生成代码的安全性与可靠性。通过系统化标注漏洞样本,该数据集为后续研究提供了关键数据支持,推动了代码生成安全评估领域的发展,对提升智能编程工具的安全性具有重要影响力。
当前挑战
该数据集旨在解决代码生成中SQL注入漏洞的自动检测与修复挑战,其核心难点在于如何准确识别模型生成代码中的隐蔽安全缺陷,并区分正常代码与恶意模式。在构建过程中,研究人员面临数据标注的复杂性,需确保漏洞标签的精确性,同时处理生成代码的多样性与上下文依赖性。此外,平衡训练与测试数据的分布,以及模拟真实世界编程场景中的漏洞注入与修复,均为构建过程中的关键挑战。
常用场景
经典使用场景
在软件安全与代码生成领域,euisuh15/gpt89数据集为研究大型语言模型在生成SQL查询代码时的安全漏洞提供了关键资源。该数据集通过整合函数描述、GPT生成的代码以及Bandit工具的安全检测结果,构建了一个包含SQL注入漏洞(CWE-89)标注的样本集合。经典使用场景涉及训练和评估机器学习模型,特别是自然语言处理与代码生成模型,以识别和修复由AI生成的代码中的安全缺陷。研究者利用该数据集进行模型微调,旨在提升模型生成安全代码的能力,从而在自动化编程任务中降低潜在风险。
衍生相关工作
基于euisuh15/gpt89数据集,衍生了一系列经典研究工作,主要集中在改进代码生成模型的安全性和漏洞检测方法上。例如,研究者开发了结合静态分析与机器学习的新型漏洞检测框架,利用该数据集的标注信息训练更精准的分类器。此外,该数据集还启发了对大型语言模型进行对抗性训练的研究,以增强模型抵抗恶意输入诱导漏洞的能力。这些工作推动了安全代码生成领域的进展,为后续更全面的漏洞数据集构建提供了参考范式。
数据集最近研究
最新研究方向
在软件安全与代码生成领域,euisuh15/gpt89数据集聚焦于SQL注入漏洞的自动化检测与修复,成为前沿研究的热点。该数据集通过整合GPT模型生成的代码与Bandit安全工具的分析结果,为基于深度学习的漏洞识别提供了丰富标注资源。当前研究主要探索如何利用该数据集训练智能模型,以提升代码生成过程中的安全性,减少人工审计成本,并推动自动化漏洞修复技术的发展。相关研究正结合大语言模型的微调策略,致力于在代码生成初期即嵌入安全约束,从而在软件开发周期中实现早期风险防控,对提升软件供应链安全具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作