LLMSecEval 和 SecurityEval

Name: LLMSecEval 和 SecurityEval
Creator: 瑞士西北应用科技大学，德国克劳斯塔尔技术大学
Published: 2025-02-10 05:23:07
License: 暂无描述

arXiv2025-02-10 更新2025-02-12 收录

下载链接：

https://github.com/mbscit/securecodingprompts

下载链接

链接失效反馈

官方服务：

资源简介：

LLMSecEval和SecurityEval是两个针对代码生成安全性的数据集，由瑞士西北应用科技大学和德国克劳斯塔尔技术大学创建。LLMSecEval基于CodeQL存储库和MITRE的CWE场景，SecurityEval则包含了针对75种漏洞类型的130个提示。这两个数据集均提供了用于评估大型语言模型生成的代码安全性的相关场景。

LLMSecEval and SecurityEval are two datasets focused on code generation security, created by Northwestern Switzerland University of Applied Sciences and Technische Universität Clausthal. LLMSecEval is based on the CodeQL repository and MITRE's CWE scenarios, while SecurityEval contains 130 prompts targeting 75 vulnerability types. Both datasets provide relevant scenarios for evaluating the security of code generated by large language models.

提供机构：

瑞士西北应用科技大学，德国克劳斯塔尔技术大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

LLMSecEval 和 SecurityEval 数据集的构建方式旨在评估大型语言模型 (LLM) 在生成代码时的安全性。研究者从 LLMSecEval 和 SecurityEval 两个同行评审的提示数据集中选取了可能导致安全漏洞的编码提示，并使用静态扫描器（Semgrep 和 CodeQL）对生成的代码进行大规模的安全性评估。为了确保评估的准确性，他们还考虑了与 MITRE 常见弱点枚举 (CWE) 相关联的提示，以便更好地理解代码安全性的潜在问题。

特点

LLMSecEval 和 SecurityEval 数据集的特点在于它们关注于代码生成过程中的安全漏洞问题。这些数据集包含了可能导致安全漏洞的编码提示，以及使用静态扫描器检测到的漏洞信息。这些特点使得数据集能够有效地评估不同提示工程策略对代码安全性的影响，并为安全代码生成提供有价值的参考。

使用方法

LLMSecEval 和 SecurityEval 数据集的使用方法主要包括以下几个方面：首先，研究者使用这些数据集测试了多种提示工程技术，包括添加前缀、后缀、迭代提示等，以评估这些技术对代码安全性的影响。其次，他们使用静态扫描器对生成的代码进行安全性评估，以检测潜在的漏洞。最后，他们还设计了一个“提示代理”，将最有效的技术应用于实际开发工作流程中，以减少代码生成过程中的安全漏洞。

背景与挑战

背景概述

在软件开发的现代化进程中，大型语言模型（LLMs）如GPT-3.5-turbo、GPT-4o和GPT-4o-mini被广泛应用于代码生成，极大地提升了开发效率。然而，LLMs生成的代码的安全性却是一个值得关注的问题，因为使用这些工具的开发者可能会无意中提交不安全的代码。为了解决这个问题，Marc Bruni等人设计了一个基准测试系统，利用LLMSecEval和SecurityEval两个数据集，通过静态扫描器评估各种提示工程技术对代码安全性的影响。他们测试了多种提示工程技术在GPT模型上的效果，发现对于GPT-4o和GPT-4o-mini，一个安全聚焦的提示前缀可以将安全漏洞的发生率降低高达56%。此外，所有测试模型在使用迭代提示技术时，都能在先前生成的代码中检测并修复41.9%至68.7%的漏洞。这项研究为提高LLM生成的代码安全性提供了重要的参考。

当前挑战

尽管提示工程技术在提高LLM生成的代码安全性方面取得了进展，但仍面临一些挑战。首先，如何有效地引导LLMs生成安全的代码仍然是一个需要深入研究的课题。其次，在构建过程中，如何选择合适的静态扫描器以准确评估代码的安全性是一个挑战。此外，如何平衡代码安全性与功能性也是一个需要解决的问题。最后，如何将提示工程技术集成到实际开发流程中，以便在实际开发中应用这些技术，仍然是一个需要进一步研究的课题。

常用场景

经典使用场景

LLMSecEval 和 SecurityEval 数据集主要用于评估和改进大型语言模型（LLM）在代码生成过程中的安全性。通过对 GPT 模型进行基准测试，研究人员探究了各种提示工程策略对代码安全性的影响，并评估了静态扫描器在检测代码安全漏洞方面的有效性。

解决学术问题

该数据集解决了 LLM 生成的代码中可能存在的安全漏洞问题，特别是针对 Python 语言的代码。通过测试多种提示工程技术，该研究为 LLM 生成的代码安全性提供了有价值的见解，并展示了如何通过提示工程来提高代码的安全性。

衍生相关工作

LLMSecEval 和 SecurityEval 数据集衍生了多个相关的工作，例如，研究人员开发了代码安全评估工具，用于检测和修复 LLM 生成的代码中的安全漏洞。此外，该数据集还激发了更多的研究，例如，探索不同提示工程技术对代码安全性的影响，以及如何将提示工程技术应用于其他编程语言和领域。

以上内容由遇见数据集搜集并总结生成