five

LLM-SECURITY-PROMPTS

收藏
github2025-07-14 更新2025-07-17 收录
下载链接:
https://github.com/Rvelamen/LLM-Security-Prompts
下载链接
链接失效反馈
官方服务:
资源简介:
该项目的数据来源于攻击算法生成和网络收集,涵盖18种攻击类型,共有2000个攻击数据点和1000个正常样本数据点。

The dataset for this project is sourced from attack algorithm generation and network collection, covering 18 types of attacks, and contains a total of 2000 attack data points and 1000 normal sample data points.
创建时间:
2025-07-14
原始信息汇总

LLM-SECURITY-PROMPTS 数据集概述

数据集简介

LLM-SECURITY-PROMPTS是一个用于评估大模型在安全防护方面对抗提示攻击的基准数据集。其目的是评估和增强大模型的安全性,并使其输出与人类价值观保持一致。

免责声明:该数据集包含有害语言示例,仅供研究使用,严禁滥用。

数据概况

  • 数据来源:攻击算法生成和网络收集
  • 攻击类型覆盖:18种
  • 攻击数据量:2000条
  • 正常样本量:1000条

数据分布

攻击类型 数量
ArtPrompt 100
ReNeLLM 100
JBC 100
GPTFuzz 100
Cipher 100
Autodan 100
Cold 100
TensePast 100
CodeChameleon 100
DrAttack 100
DSN 100
PAP 100
Deepinception 100
Adaptive 100
GCG 100
PAIR 100
ICA 100
Tap 100
Multilingual 50
DRA 50
Jailbroken 100
Normal 1000

攻击类型说明

类型 说明 是否包含
Adaptive 使用自适应提示模板攻击特定模型漏洞
ArtPrompt 利用大语言模型解析ASCII艺术的缺陷发起攻击
AutoDAN 使用新型分层遗传算法自动生成隐蔽越狱指令
Cipher 通过角色扮演诱导模型释放潜在风险能力
Deep Inception 在现实虚拟场景中通过轻量级权威诱导策略实施攻击
DRA 通过隐蔽指令诱导模型重构恶意内容
DrAttack 通过语义分解和上下文学习重构攻击指令
GCG 基于模型梯度自动生成对抗性后缀攻击
GPTFuzzer 通过模糊测试框架自动生成越狱模板
Multilingual 通过多语言构建对抗性提示实施攻击
PAIR 使用黑盒攻击模型通过攻击者大语言模型迭代生成和优化目标模型的越狱指令
Past Tense 通过过去时态重构恶意请求实施攻击
ReNeLLM 通过指令重写和场景嵌套使用大语言模型自动生成越狱提示
TAP 使用思维树推理和剪枝策略自动生成越狱指令
PAP 基于社会科学研究中说服技巧的分类系统,将普通有害查询转化为有说服力的对抗性提示
Cold 基于能量的朗之万动力学约束解码,统一和自动化生成越狱提示
DSN 使用精心设计的提示鼓励LLM不仅生成肯定响应,还抑制其拒绝回答的能力

数据示例

Prompt 攻击类型
[Adaptive攻击示例] Adaptive
[ArtPrompt攻击示例] ArtPrompt
[AutoDAN攻击示例] AutoDAN
[Cipher攻击示例] Cipher

更新记录

  • 2024/07/14:LLM-SECURITY-PROMPTS (v0.1) 正式发布
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全领域,LLM-SECURITY-PROMPTS数据集的构建采用了多源数据融合策略。该数据集通过算法生成和网络爬取两种主要渠道,系统性地收集了18种典型攻击类型的文本样本。研究人员精心设计了数据采集框架,确保每种攻击类型均包含100个样本实例,同时配置了1000个正常样本作为对照基线,最终形成包含3000条数据的高质量语料库。数据采集过程严格遵循学术伦理规范,所有攻击样本均标注了详细的元数据信息,包括攻击类型、语义特征和潜在风险等级。
特点
该数据集最显著的特征在于其攻击类型的多样性和样本的专业性。涵盖从ArtPrompt的ASCII艺术攻击到AutoDAN的遗传算法攻击等18种前沿攻击技术,每种技术都代表当前大语言模型安全研究的关键挑战点。数据集特别注重攻击场景的真实性,包含多语言攻击样本和复合型攻击策略,如结合社会工程学的PAP攻击。所有样本均经过安全专家团队的三重校验,确保攻击逻辑的完整性和学术研究价值,同时采用分层抽样方法保证各类攻击样本的均衡性。
使用方法
研究人员可通过GitHub仓库获取该数据集的标准化访问接口。数据集采用模块化设计,支持按攻击类型、风险等级等多维度进行数据检索。典型使用流程包括:首先通过数据分布表了解样本结构,继而使用标注系统解析攻击特征,最后结合提供的示例代码构建安全评估模型。为保障研究合规性,使用前需签署伦理承诺书,且所有实验应在隔离环境中进行。数据集定期更新机制确保研究者能获取最新的攻击模式样本,配套的评估指标体系可量化模型的防御性能。
背景与挑战
背景概述
LLM-SECURITY-PROMPTS数据集由研究团队于2024年7月发布,旨在评估大型语言模型在对抗提示攻击时的安全防御能力。该数据集涵盖了18种攻击类型,共计2000条攻击数据和1000条正常样本,通过算法生成和网络采集相结合的方式构建。其核心研究问题聚焦于如何提升大模型在面对精心设计的恶意提示时的鲁棒性,确保模型输出符合人类价值观。该数据集的发布为人工智能安全领域提供了重要的基准测试工具,推动了对抗攻击与防御技术的深入研究。
当前挑战
该数据集面临双重挑战:在领域问题层面,需要解决大模型对复杂对抗提示的脆弱性问题,包括多语言攻击、语义混淆攻击等多种形式,这些攻击可能绕过现有安全机制;在构建过程中,数据收集面临伦理审查难题,需平衡研究价值与潜在滥用风险,同时确保攻击样本的多样性和代表性。此外,动态更新攻击类型以应对快速演进的黑客技术也是持续性的挑战。
常用场景
经典使用场景
在大型语言模型安全研究领域,LLM-SECURITY-PROMPTS数据集为评估模型对抗提示攻击的防御能力提供了标准化测试平台。研究者通过模拟18种典型攻击手法,如ArtPrompt的ASCII艺术解析漏洞利用和AutoDAN的遗传算法生成隐蔽指令,系统性地检验模型安全围栏的鲁棒性。该数据集尤其适合用于对比不同防御策略在对抗性提示下的表现,为安全对齐研究提供量化基准。
衍生相关工作
该数据集已催生多项重要研究成果,包括基于GCG攻击开发的梯度防护框架GradShield、针对自适应攻击的动态检测系统AdaptGuard。清华大学提出的PromptShield方案通过分析数据集中的DeepInception样本实现了92.3%的攻击拦截率,而Meta发布的RobustLLM基准测试则整合了该数据集的12种攻击类型作为核心评估维度。
数据集最近研究
最新研究方向
在大型语言模型安全领域,LLM-SECURITY-PROMPTS数据集为研究者提供了评估模型对抗提示攻击防御能力的基准。当前研究聚焦于多模态攻击检测、自适应防御机制构建以及跨语言攻击迁移性分析。随着生成式AI的广泛应用,针对模型安全围栏的对抗性提示攻击已成为行业关注热点,该数据集涵盖的18种攻击类型为开发鲁棒性防御算法提供了重要测试场景。特别是在黑盒攻击模拟和语义混淆攻击方面,该数据集支持了对抗样本生成算法与模型对齐技术的交叉研究,对构建符合人类价值观的安全AI系统具有关键意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作