Lakera/mosscap_prompt_injection

Name: Lakera/mosscap_prompt_injection
Creator: Lakera
Published: 2025-02-28 07:59:09
License: 暂无描述

Hugging Face2025-02-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Lakera/mosscap_prompt_injection

下载链接

链接失效反馈

官方服务：

资源简介：

mosscap_prompt_injection数据集包含了用户提交给Mosscap游戏的提示注入数据。每个数据行包含四个字段：level（级别）、prompt（提示）、answer（回答）和raw_answer（原始回答）。数据集分为训练集、验证集和测试集，分别包含不同数量的样本。Mosscap是Lakera公司为DEF CON 31创建的一个变体游戏，旨在展示LLM（大型语言模型）的安全问题，特别是提示注入问题。

提供机构：

Lakera

原始信息汇总

数据集概述

数据集信息

特征（Features）:
- level: 字符串类型，表示提交提示的级别，格式为 "Level {n}"，其中 "n" 介于 1 到 8 之间。
- prompt: 字符串类型，表示用户提交的实际提示。
- answer: 字符串类型，表示向用户显示的答案。
- raw_answer: 字符串类型，表示ChatGPT的原始答案，未经任何后处理。
分割（Splits）:
- train: 训练集，包含 136521220 字节，223533 个样本。
- validation: 验证集，包含 17380225 字节，27683 个样本。
- test: 测试集，包含 17009787 字节，27729 个样本。
数据大小:
- 下载大小: 63785770 字节
- 数据集大小: 170911232 字节
配置（Configs）:
- default:
  - train: 数据文件路径为 data/train-*
  - validation: 数据文件路径为 data/validation-*
  - test: 数据文件路径为 data/test-*

数据集描述

该数据集包含提交到游戏 Mosscap 的提示注入样本。
每个样本对应一个提交到 Mosscap 的提示，包含以下列：
- level: 提示提交的级别。
- prompt: 用户提交的实际提示。
- answer: 向用户显示的答案。
- raw_answer: ChatGPT 的原始答案，未经任何后处理。

引用信息

如果使用此数据集进行研究，请按以下格式引用：

@InProceedings{mosscap_prompt_injection, title = {mosscap_prompt_injection}, author={Lakera AI (https://www.lakera.ai)}, year={2023} }

许可信息

该数据集基于 MIT License 发布。

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，对抗性提示注入已成为评估大型语言模型鲁棒性的关键挑战。Lakera/mosscap_prompt_injection数据集源自DEF CON 31期间举办的生成式人工智能红队挑战赛，其构建过程基于实际对抗场景。该数据集通过Mosscap游戏平台收集用户提交的提示，涵盖八个不同防御等级的交互记录。每个样本均包含用户原始提示、系统处理后答案及未经处理的原始模型响应，完整保留了从输入到输出的全链条数据。数据采集过程未经过滤，既包含有效提示注入案例，也涵盖大量无关查询，真实反映了实际对抗环境中的复杂性与噪声。

特点

该数据集在提示注入研究领域展现出独特价值，其核心特征体现在多层次防御架构与真实对抗数据的结合。数据按八个安全等级组织，每个等级对应不同的模型防护机制，从基础过滤到高级对抗检测逐级增强。样本中的密码设计突破传统限制，融合特殊字符与扩展长度，显著提升了攻击难度。数据集特别保留了原始模型输出与后处理结果的对比字段，为分析防御机制的实际效果提供透明视角。超过27万条样本的规模覆盖了多样化攻击手法，包括语义混淆、上下文劫持等前沿技术，为构建鲁棒检测模型提供了丰富素材。

使用方法

研究人员可借助该数据集开展多维度安全研究，首要应用在于训练和评估提示注入检测模型。通过划分好的训练、验证与测试集，可系统化开发基于深度学习的分类器，区分恶意提示与正常查询。数据中的层级结构支持渐进式防御研究，允许学者分析不同防护策略在各级别中的有效性差异。原始答案字段为解释性研究提供关键线索，有助于揭示模型脆弱性的本质特征。该数据集还可用于对抗样本生成技术的改进，通过分析成功注入案例的模式特征，推动防御机制的迭代升级。在合规使用方面，用户需遵循MIT许可协议，并在学术成果中引用配套研究论文。

背景与挑战

背景概述

在大型语言模型（LLM）安全研究领域，提示注入攻击已成为一个核心威胁，它通过精心构造的输入绕过模型的安全防护机制。为应对这一挑战，Lakera团队于2023年DEF CON 31大会上推出了Mosscap数据集，作为其知名游戏Gandalf的衍生版本。该数据集由Lakera公司主导构建，汇集了来自生成式红队挑战赛中用户提交的海量交互提示，旨在系统性地探索和评估LLM在面对多样化、对抗性输入时的安全漏洞。Mosscap不仅延续了Gandalf在自适应安全测试方面的设计理念，还通过引入更复杂的密码结构和特殊字符，提升了攻击场景的真实性与难度，为后续的模型防御研究提供了宝贵的实证基础。

当前挑战

Mosscap数据集所针对的核心领域问题是提示注入攻击的检测与防御，其挑战在于攻击手法的多样性与隐蔽性，例如用户可能通过语义混淆、上下文误导或指令覆盖等方式诱导模型泄露敏感信息。在数据集构建过程中，面临的主要挑战包括数据质量的把控，由于收录了所有用户提交的提示，其中包含大量非攻击性内容，需在后续分析中有效区分噪声与真实攻击样本；同时，密码设计的复杂性增加，如特殊字符和更长字符串的使用，使得攻击成功判定与模型响应解析变得更为困难，这要求标注与评估流程具备更高的精确性与适应性。

常用场景

经典使用场景

在大型语言模型安全研究领域，mosscap_prompt_injection数据集为提示注入攻击的检测与防御提供了关键实验基础。该数据集汇集了来自Mosscap游戏的大量用户提示，覆盖了从基础到高级的多层防御场景，使研究者能够系统性地分析恶意提示的构造模式与模型响应机制。通过模拟真实世界中的对抗性交互，该数据集成为评估语言模型在复杂提示下安全漏洞的标准化测试平台，尤其适用于训练和验证针对提示注入的自动化检测模型。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于LLM安全的前沿研究。例如，基于Mosscap与Gandalf游戏框架的对抗性提示生成技术、多层级防御架构的自动化评估方法，以及利用大规模注入数据训练的分类器与异常检测系统。这些工作不仅深化了对提示注入攻击模式的理论理解，还推动了如动态防御调整、上下文感知过滤等创新技术的出现，共同构成了当前AI安全领域的重要研究方向与实践成果。

数据集最近研究