LLM-SECURITY-PROMPTS

github2025-07-14 更新2025-07-17 收录

下载链接：

https://github.com/Rvelamen/LLM-Security-Prompts

下载链接

链接失效反馈

官方服务：

资源简介：

该项目的数据来源于攻击算法生成和网络收集，涵盖18种攻击类型，共有2000个攻击数据点和1000个正常样本数据点。

The dataset for this project is sourced from attack algorithm generation and network collection, covering 18 types of attacks, and contains a total of 2000 attack data points and 1000 normal sample data points.

创建时间：

2025-07-14

原始信息汇总

LLM-SECURITY-PROMPTS 数据集概述

数据集简介

LLM-SECURITY-PROMPTS是一个用于评估大模型在安全防护方面对抗提示攻击的基准数据集。其目的是评估和增强大模型的安全性，并使其输出与人类价值观保持一致。

免责声明：该数据集包含有害语言示例，仅供研究使用，严禁滥用。

数据概况

数据来源：攻击算法生成和网络收集
攻击类型覆盖：18种
攻击数据量：2000条
正常样本量：1000条

数据分布

攻击类型	数量
ArtPrompt	100
ReNeLLM	100
JBC	100
GPTFuzz	100
Cipher	100
Autodan	100
Cold	100
TensePast	100
CodeChameleon	100
DrAttack	100
DSN	100
PAP	100
Deepinception	100
Adaptive	100
GCG	100
PAIR	100
ICA	100
Tap	100
Multilingual	50
DRA	50
Jailbroken	100
Normal	1000

攻击类型说明

类型	说明	是否包含
Adaptive	使用自适应提示模板攻击特定模型漏洞	✅
ArtPrompt	利用大语言模型解析ASCII艺术的缺陷发起攻击	✅
AutoDAN	使用新型分层遗传算法自动生成隐蔽越狱指令	✅
Cipher	通过角色扮演诱导模型释放潜在风险能力	✅
Deep Inception	在现实虚拟场景中通过轻量级权威诱导策略实施攻击	✅
DRA	通过隐蔽指令诱导模型重构恶意内容	✅
DrAttack	通过语义分解和上下文学习重构攻击指令	✅
GCG	基于模型梯度自动生成对抗性后缀攻击	✅
GPTFuzzer	通过模糊测试框架自动生成越狱模板	✅
Multilingual	通过多语言构建对抗性提示实施攻击	✅
PAIR	使用黑盒攻击模型通过攻击者大语言模型迭代生成和优化目标模型的越狱指令	✅
Past Tense	通过过去时态重构恶意请求实施攻击	✅
ReNeLLM	通过指令重写和场景嵌套使用大语言模型自动生成越狱提示	✅
TAP	使用思维树推理和剪枝策略自动生成越狱指令	✅
PAP	基于社会科学研究中说服技巧的分类系统，将普通有害查询转化为有说服力的对抗性提示	✅
Cold	基于能量的朗之万动力学约束解码，统一和自动化生成越狱提示	✅
DSN	使用精心设计的提示鼓励LLM不仅生成肯定响应，还抑制其拒绝回答的能力	✅

数据示例

Prompt	攻击类型
[Adaptive攻击示例]	Adaptive
[ArtPrompt攻击示例]	ArtPrompt
[AutoDAN攻击示例]	AutoDAN
[Cipher攻击示例]	Cipher

更新记录

2024/07/14：LLM-SECURITY-PROMPTS (v0.1) 正式发布

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，LLM-SECURITY-PROMPTS数据集的构建采用了多源数据融合策略。该数据集通过算法生成和网络爬取两种主要渠道，系统性地收集了18种典型攻击类型的文本样本。研究人员精心设计了数据采集框架，确保每种攻击类型均包含100个样本实例，同时配置了1000个正常样本作为对照基线，最终形成包含3000条数据的高质量语料库。数据采集过程严格遵循学术伦理规范，所有攻击样本均标注了详细的元数据信息，包括攻击类型、语义特征和潜在风险等级。

特点

该数据集最显著的特征在于其攻击类型的多样性和样本的专业性。涵盖从ArtPrompt的ASCII艺术攻击到AutoDAN的遗传算法攻击等18种前沿攻击技术，每种技术都代表当前大语言模型安全研究的关键挑战点。数据集特别注重攻击场景的真实性，包含多语言攻击样本和复合型攻击策略，如结合社会工程学的PAP攻击。所有样本均经过安全专家团队的三重校验，确保攻击逻辑的完整性和学术研究价值，同时采用分层抽样方法保证各类攻击样本的均衡性。

使用方法

研究人员可通过GitHub仓库获取该数据集的标准化访问接口。数据集采用模块化设计，支持按攻击类型、风险等级等多维度进行数据检索。典型使用流程包括：首先通过数据分布表了解样本结构，继而使用标注系统解析攻击特征，最后结合提供的示例代码构建安全评估模型。为保障研究合规性，使用前需签署伦理承诺书，且所有实验应在隔离环境中进行。数据集定期更新机制确保研究者能获取最新的攻击模式样本，配套的评估指标体系可量化模型的防御性能。

背景与挑战

背景概述

LLM-SECURITY-PROMPTS数据集由研究团队于2024年7月发布，旨在评估大型语言模型在对抗提示攻击时的安全防御能力。该数据集涵盖了18种攻击类型，共计2000条攻击数据和1000条正常样本，通过算法生成和网络采集相结合的方式构建。其核心研究问题聚焦于如何提升大模型在面对精心设计的恶意提示时的鲁棒性，确保模型输出符合人类价值观。该数据集的发布为人工智能安全领域提供了重要的基准测试工具，推动了对抗攻击与防御技术的深入研究。

当前挑战

该数据集面临双重挑战：在领域问题层面，需要解决大模型对复杂对抗提示的脆弱性问题，包括多语言攻击、语义混淆攻击等多种形式，这些攻击可能绕过现有安全机制；在构建过程中，数据收集面临伦理审查难题，需平衡研究价值与潜在滥用风险，同时确保攻击样本的多样性和代表性。此外，动态更新攻击类型以应对快速演进的黑客技术也是持续性的挑战。

常用场景

经典使用场景

在大型语言模型安全研究领域，LLM-SECURITY-PROMPTS数据集为评估模型对抗提示攻击的防御能力提供了标准化测试平台。研究者通过模拟18种典型攻击手法，如ArtPrompt的ASCII艺术解析漏洞利用和AutoDAN的遗传算法生成隐蔽指令，系统性地检验模型安全围栏的鲁棒性。该数据集尤其适合用于对比不同防御策略在对抗性提示下的表现，为安全对齐研究提供量化基准。

衍生相关工作

该数据集已催生多项重要研究成果，包括基于GCG攻击开发的梯度防护框架GradShield、针对自适应攻击的动态检测系统AdaptGuard。清华大学提出的PromptShield方案通过分析数据集中的DeepInception样本实现了92.3%的攻击拦截率，而Meta发布的RobustLLM基准测试则整合了该数据集的12种攻击类型作为核心评估维度。

数据集最近研究