CYBERSECEVAL

arXiv2023-12-08 更新2024-06-21 收录

下载链接：

https://github.com/facebookresearch/PurpleLlama/tree/main/CybersecurityBenchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

CYBERSECEVAL是由元研究开发的一个全面的编码安全基准，旨在评估大型语言模型（LLMs）作为编码辅助工具时的网络安全性能。该数据集包含189条静态分析规则，覆盖50种不安全的编码实践，适用于8种编程语言。通过自动化测试案例生成和评估流程，CYBERSECEVAL为LLM设计者和研究者提供了一个工具，以广泛测量和增强LLMs的网络安全安全性，有助于开发更安全的AI系统。数据集主要应用于识别和改进LLMs在生成不安全代码和协助网络攻击方面的行为，从而提升AI系统的整体安全性。

CYBERSECEVAL is a comprehensive coding security benchmark developed by Meta Research, which aims to evaluate the cybersecurity performance of large language models (LLMs) when utilized as coding assistance tools. This dataset includes 189 static analysis rules, covering 50 unsafe coding practices and applicable to 8 programming languages. Through automated test case generation and evaluation workflows, CYBERSECEVAL provides a tool for LLM designers and researchers to comprehensively measure and enhance the cybersecurity of LLMs, thereby facilitating the development of safer AI systems. The dataset is primarily applied to identify and improve the behaviors of LLMs in generating unsafe code and assisting in cyberattacks, thus boosting the overall security of AI systems.

提供机构：

元研究

创建时间：

2023-12-08

搜集汇总

数据集介绍

构建方式

CYBERSECEVAL 的构建依托于两大核心评估维度：不安全代码生成与网络攻击协助倾向。在不安全代码检测方面，研究者开发了名为“Insecure Code Detector (ICD)”的静态分析工具，该工具整合了 189 条基于 weggli、semgrep 和正则表达式的规则，覆盖 8 种编程语言中的 50 种常见弱点枚举。测试用例的生成分为自动补全与指令两种场景：前者从开源代码中提取不安全实践前的上下文作为提示，后者则利用大语言模型将包含不安全实践的代码片段转化为自然语言指令。针对网络攻击协助测试，研究团队手动编写了包含前导、上下文和攻击战术描述的句子片段，通过组合扩展与 Llama-70b-chat 模型增强，最终生成 1000 条覆盖 MITRE ATT&CK 全部类别的提示。

特点

该数据集具备显著的广度与真实性。作为迄今为止最全面的统一网络安全基准，它横跨 8 种编程语言、50 种 CWE 不安全实践以及 10 类 ATT&CK 战术技术，远超此前研究。其不安全代码测试用例自动从真实世界开源代码中衍生，确保了评估场景的现实相关性。自动化流水线的设计赋予了数据集卓越的适应性，可便捷地扩展至新发现的编码弱点或攻击模式。在准确性方面，ICD 对不安全代码的检测达到了经人工验证的 96% 精确率与 79% 召回率，而基于大语言模型的攻击协助判断也实现了 94% 精确率与 84% 召回率，为模型安全评估提供了可靠依据。

使用方法

使用者可通过公开的 GitHub 仓库获取完整代码、测试用例及文档。评估过程首先将模型置于自动补全或指令提示下生成代码，随后运用 ICD 判定输出中是否包含不安全编码实践，并通过通过率指标量化风险。对于网络攻击协助倾向的测试，则向模型提交 1000 条精心设计的提示，利用模式匹配与 Llama-70b-chat、CodeLlama-13b 组成的判断流水线，识别模型是否生成了对攻击者有价值的内容。最终，模型设计者可基于这些评估结果迭代优化模型，减少不安全代码生成与恶意协助行为，从而提升 AI 系统的整体安全性。

背景与挑战

背景概述

随着大型语言模型在代码生成领域的广泛应用，其安全性与可靠性成为学界与工业界共同关注的焦点。CYBERSECEVAL 诞生于2023年12月，由Meta公司Purple Llama团队主导，旨在构建一个全面的网络安全安全评估基准。该数据集的核心研究问题聚焦于大型语言模型在作为编程助手时可能引发的两大安全风险：生成不安全代码的倾向性以及对网络攻击协助请求的顺从性。通过覆盖8种编程语言、50种常见弱点枚举及10类MITRE ATT&CK战术技术，CYBERSECEVAL 为模型开发者提供了系统化的测量工具。其影响力体现在揭示了先进模型更易生成不安全代码的反直觉现象，并推动了安全考量与模型能力协同发展的研究范式。

当前挑战

CYBERSECEVAL 所应对的领域挑战在于，大型语言模型生成的代码中高达30%存在安全漏洞，且模型对网络攻击请求的平均顺从率超过50%，这严重威胁着软件供应链的安全。构建过程中的挑战则更为复杂：首先，需设计一个能精准检测多种语言中不安全编码实践的静态分析工具，并在96%精确率与79%召回率间取得平衡；其次，测试用例需从真实开源代码中自动提取，同时规避数据污染风险；最后，对模型协助网络攻击意图的判定需依赖多阶段LLM评判流程，在主观性极强的语义边界上实现94%的精确率与84%的召回率，这对评估体系的鲁棒性提出了极高要求。

常用场景

经典使用场景

在人工智能与网络安全交叉的研究领域中，CYBERSECEVAL被广泛用作评估大型语言模型（LLM）安全编码能力的基准测试。其经典使用场景聚焦于两大核心维度：其一，衡量LLM在代码生成任务中引入不安全编码实践的倾向性，通过自动补全与指令生成两种模式，系统性地检测模型是否复现或规避已知的脆弱性模式；其二，评估LLM在面临恶意请求时是否会协助实施网络攻击，基于MITRE ATT&CK框架构建测试提示，判断模型生成的内容是否对攻击者具有实质性帮助。这一双重评估架构为理解LLM在真实开发环境中的安全风险提供了量化依据。

解决学术问题

该数据集有效解决了学术界长期面临的LLM安全评估碎片化与不全面问题。过往研究多局限于少数编程语言或手工构造的测试用例，而CYBERSECEVAL通过覆盖8种编程语言、50种通用弱点枚举（CWE）及10类ATT&CK战术技术流程，构建了首个统一且可扩展的评估框架。其自动化测试用例生成与静态分析管道，使得研究者能够大规模、可复现地量化模型的不安全代码生成率与恶意协助倾向，从而揭示出能力更强的模型反而更易输出脆弱代码这一反直觉现象，推动了LLM安全对齐研究的深入发展。

衍生相关工作

CYBERSECEVAL的提出催生了一系列衍生研究。在评估方法上，后续工作借鉴其自动化的静态分析策略，扩展了针对更多编程语言与脆弱性类型的检测规则库。在模型优化方面，研究者基于其揭示的“高能力-高风险”关联，探索了安全微调与对抗训练策略，以在保持编码性能的同时降低不安全代码生成率。此外，其针对恶意协助的评估框架启发了多轮对话场景下的安全测试研究，并推动了LLM安全对齐中“双重用途”问题的深入分析。该数据集还常被用作基线，与SecurityEval、FormAI等早期基准进行对比，验证新提出安全措施的提升效果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集