walledai/CyberSecEval

Name: walledai/CyberSecEval
Creator: walledai
Published: 2024-10-18 19:39:18
License: 暂无描述

Hugging Face2024-10-18 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/walledai/CyberSecEval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个编程语言（如Python、PHP、JavaScript等）的代码片段，每个代码片段都有相关的元数据，如提示、仓库信息、文件路径、行号、行文本、原始代码、CWE标识符、模式ID、模式描述、规则、变体和分析器。数据集分为两个配置：autocomplete和instruct，每个配置下包含不同语言的数据集，每个数据集的大小和示例数量也有所不同。

This dataset contains code snippets from multiple programming languages (such as Python, PHP, JavaScript, etc.), each with associated metadata such as prompt, repository information, file path, line number, line text, original code, CWE identifier, pattern ID, pattern description, rule, variant, and analyzer. The dataset is divided into two configurations: autocomplete and instruct, each containing datasets for different languages, with varying sizes and numbers of examples.

提供机构：

walledai

搜集汇总

数据集介绍

构建方式

在网络安全领域，大型语言模型（LLM）的广泛应用带来了新的安全挑战。为系统评估这些模型的潜在风险，研究者构建了CyberSecEval数据集。该数据集源自Meta的PurpleLlama项目，专注于测试LLM在代码自动补全和指令遵循场景下的安全性能。构建过程从真实代码仓库中提取包含安全漏洞的代码片段，并利用CWE（通用弱点枚举）标识符对漏洞类型进行标注。每个样本包含原始代码上下文、触发漏洞的具体行信息以及对应的安全规则描述。数据集涵盖Python、PHP、JavaScript、Rust、Java、C++、C和C#八种主流编程语言，分别以自动补全和指令两种配置形式组织，确保评估覆盖不同使用场景。

特点

CyberSecEval数据集的核心特点在于其针对性的安全评估设计。它首次将提示注入和代码解释器滥用两个新兴安全风险纳入评测体系，填补了现有基准的空白。数据集通过精细的漏洞模式标注（如pattern_id和pattern_desc字段），支持对特定安全问题的定向测试。每个样本均关联具体的CWE标识符，便于研究者定位漏洞类别。此外，数据集引入安全-效用权衡的概念，通过计算错误拒绝率（False Refusal Rate）来衡量模型在拒绝不安全请求时是否过度影响正常功能。这种多维度的评估框架使数据集能够全面反映LLM在安全防护与实用性能之间的平衡。

使用方法

使用CyberSecEval数据集时，研究者可通过HuggingFace数据集库加载两种配置：autocomplete用于评估代码自动补全场景，instruct用于评估指令遵循场景。加载后，数据集按编程语言分为八个子集，每个子集包含prompt、origin_code、cwe_identifier等字段。用户可针对特定语言或漏洞类型筛选样本，利用pattern_id和rule字段分析模型对特定安全规则的响应。评估流程可参考原论文中的方法，通过统计模型在提示注入测试中的成功率以及计算错误拒绝率来量化安全风险。数据集还支持扩展至其他LLM的评估，其开源代码提供了完整的测试框架，便于研究者复现实验或定制化测试。

背景与挑战

背景概述

随着大语言模型在代码生成与自动补全等领域的广泛应用，其潜在的安全风险日益凸显，如何系统性地评估与缓解这些风险成为学界与工业界共同关注的核心议题。在此背景下，Meta研究团队于2024年发布了CyberSecEval 2，由Manish Bhatt、Sahana Chennabasappa等学者主导，旨在构建一个涵盖提示注入、代码解释器滥用及漏洞利用能力等多维度安全评估的综合性基准。该数据集通过收集Python、Java、JavaScript等八种主流编程语言的真实代码片段，并标注其对应的通用弱点枚举标识，为量化大语言模型在网络安全场景下的风险与能力提供了标准化测试平台，对推动AI安全领域的研究具有重要影响力。

当前挑战

CyberSecEval 2所面临的核心挑战在于如何精准平衡安全性与实用性之间的张力。一方面，所有被测试的先进模型在提示注入攻击面前均表现出25%至50%的成功率，表明当前模型对恶意输入的拒斥能力仍存在显著短板，这一领域问题的解决需要更鲁棒的对抗训练与安全对齐技术。另一方面，构建过程中需应对安全-效用权衡困境：过度强化模型拒绝不安全提示的能力，易导致其对良性请求产生虚假拒绝，从而降低实际应用价值。此外，数据集需覆盖多种编程语言与攻击模式，确保样本的多样性与代表性，同时避免因标注偏差或模式重复而影响评估的客观性，这对数据采集与标注流程提出了严苛要求。

常用场景

经典使用场景

CyberSecEval 数据集专为评估大语言模型在网络安全领域的风险与能力而设计，其经典使用场景聚焦于两类关键任务：一是通过自动补全（autocomplete）和指令遵循（instruct）两种模式，测试模型在代码生成中是否会引入安全漏洞；二是衡量模型对提示注入攻击的抵御能力。该数据集覆盖 Python、JavaScript、Java 等八种主流编程语言，每条样本均标注了通用弱点枚举（CWE）标识和漏洞模式描述，从而能够系统性地量化模型在代码安全上下文中的行为表现，为安全导向的模型训练与评估提供了标准化基准。

衍生相关工作

CyberSecEval 的提出催生了一系列相关研究工作，推动了 LLM 安全评估领域的深化与拓展。例如，研究者基于其“安全-效用权衡”框架，进一步探索了不同安全对齐方法（如 RLHF、对抗训练）对假拒绝率的影响，并设计了更精细的良性-恶意请求边界检测机制。此外，该数据集所揭示的提示注入脆弱性激发了大量关于对抗性提示防御的研究，包括输入净化、上下文感知过滤以及基于一致性检测的鲁棒性增强方法。在自动化漏洞利用方面，CyberSecEval 的评估结果促使学界重新审视 LLM 在真实攻防场景中的局限性，并催生了面向特定漏洞类型（如堆溢出、命令注入）的专用测试集与优化模型。这些衍生工作共同构筑了 LLM 安全研究从定性分析迈向定量评估的重要基石。

数据集最近研究