Chatbot Prompt Injection Detection Dataset

github2026-04-05 更新2026-04-09 收录

下载链接：

https://github.com/novacodeco/Labelled-dataset-for-prompt-injection-attack-detection-in-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于二元分类的标记数据集，区分提示注入攻击与良性输入。旨在用于AI/LLM安全领域的机器学习模型训练、评估和基准测试。数据集包含1,132个样本，格式为CSV，列包括prompt和label。

A labeled dataset for binary classification that differentiates between prompt injection attacks and benign inputs. It is intended for training, evaluation, and benchmarking of machine learning models in the field of AI/LLM security. The dataset contains 1,132 samples in CSV format, with columns named "prompt" and "label".

创建时间：

2026-04-05

原始信息汇总

Chatbot Prompt Injection Detection Dataset 概述

数据集基本信息

数据集名称：Chatbot Prompt Injection Detection Dataset
数据集地址：https://github.com/novacodeco/Labelled-dataset-for-prompt-injection-attack-detection-in-LLM
核心用途：用于对大型语言模型（LLM）的提示注入攻击与良性输入进行二元分类的标记数据集。旨在用于AI/LLM安全领域的机器学习模型训练、评估和基准测试。

数据详情

总样本数：1,132
良性提示（标签 0）：566
注入提示（标签 1）：566
数据格式：CSV
数据文件：Chatbot_injection_detection_dataset.csv
文件编码：UTF-8
列结构：
- prompt (字符串类型)：提交给聊天机器人或LLM的原始文本提示。
- label (整数类型)：0 表示良性，1 表示提示注入攻击。
类别平衡：数据集完全平衡，适合标准分类任务，无需进行类别加权或过采样。

提示注入攻击定义与示例

定义：提示注入是一种攻击技术，恶意用户精心设计输入，旨在覆盖、劫持或操纵给予大型语言模型（LLM）的指令，使模型遵循攻击者嵌入的指令，而非系统预期的行为。
数据集中包含的攻击模式示例：
- 指令覆盖：嵌入命令，指示模型忽略其原始系统提示。
- 上下文切换：前置虚假的先前对话或问答对以混淆模型。
- 目标劫持：重定向模型的任务以产生攻击者选择的输出。
- 混淆：以非标准格式（如摩斯电码、Unicode变体、反斜杠分隔字符）编码指令。
- 多语言注入：使用与系统提示不同的语言（例如中文）传递恶意指令。
- 角色扮演操纵：指示模型采用可绕过其安全约束的角色。
数据集中包含的良性内容示例：
- 编码任务和函数生成。
- 创意写作和讲故事。
- 摘要和问答。
- 事实检索和分析。

数据集特点

提示长度差异显著，从简短的单行查询到多段对抗性结构。
注入样本代表了多样化的攻击策略，而非简单的基于关键字的攻击。
良性样本涵盖广泛的领域和写作风格，以减少分类器的过拟合。
数据集包含可规避简单模式匹配的混淆攻击。

预期用途

对安全的与恶意的LLM输入进行二元分类。
训练提示注入检测模型（例如微调的BERT、DistilBERT、RoBERTa）。
评估LLM输入过滤系统的鲁棒性。
AI安全、对抗性NLP和LLM安全领域的学术研究。

使用示例

python import pandas as pd

df = pd.read_csv("Chatbot_injection_detection_dataset.csv")

print(df.shape) # (1132, 2) print(df["label"].value_counts())

0 569

1 563

Basic train/test split

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split( df["prompt"], df["label"], test_size=0.2, random_state=42, stratify=df["label"] )

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，针对大型语言模型的提示注入攻击日益受到关注。该数据集的构建采用了系统化的标注流程，通过收集多样化的真实对话场景与模拟攻击样本，精心筛选出1132条提示文本。每条样本均经过人工审核与分类，确保攻击样本涵盖指令覆盖、上下文切换、目标劫持等多种攻击模式，而良性样本则覆盖编程任务、创意写作、信息检索等多个领域，最终形成平衡的二元标注数据集，为模型训练提供了可靠的基础。

特点

该数据集以其高度平衡的样本分布而著称，恶意与良性提示各占566条，避免了类别不平衡带来的训练偏差。其提示文本长度跨度广泛，从简洁查询到复杂多段攻击构造，充分模拟了真实场景的多样性。攻击样本不仅包含直接的指令覆盖，还融入了摩尔斯码、多语言混淆等高级规避技术，增强了数据集的对抗性。良性样本则覆盖多个领域与文体，有效降低了模型过拟合的风险，为分类器提供了全面的学习素材。

使用方法

该数据集适用于二元分类任务，主要用于训练和评估提示注入检测模型。研究人员可通过加载CSV文件，利用提示文本与对应标签进行监督学习，例如对BERT、RoBERTa等预训练模型进行微调。数据集支持标准的训练测试分割，建议采用分层抽样以保持类别平衡。此外，该数据集还可用于评估输入过滤系统的鲁棒性，推动对抗性自然语言处理与AI安全领域的前沿研究。

背景与挑战

背景概述

随着大型语言模型（LLM）在各类对话系统中的广泛应用，其安全性问题日益凸显，其中提示注入攻击作为一种新兴的对抗性威胁，能够通过精心构造的输入指令绕过系统预设的安全约束，操控模型行为。Chatbot Prompt Injection Detection Dataset 应运而生，该数据集由专注于人工智能安全的研究团队构建，旨在为提示注入攻击的检测提供标准化的评估基准。它收录了涵盖多种攻击模式的恶意提示与涵盖编程、创作等领域的良性提示，共计1132条平衡样本，为训练和评估二元分类模型提供了关键资源，推动了对抗性自然语言处理与LLM安全领域的研究进展。

当前挑战

在提示注入检测领域，核心挑战在于攻击策略的多样性与隐蔽性，例如指令覆盖、上下文切换及多语言混淆等复杂模式，要求检测模型具备深度的语义理解与泛化能力，而非依赖简单的关键词匹配。数据集的构建过程同样面临挑战，包括如何全面采集并标注反映现实攻击场景的多样化样本，同时确保良性提示的广泛代表性以避免模型过拟合，以及平衡数据规模与标注质量之间的张力，这些因素共同构成了该数据集在推动可靠检测方法发展中的关键难点。

常用场景

经典使用场景

在人工智能安全领域，Chatbot Prompt Injection Detection Dataset为研究人员提供了一个标准化的基准工具，用于训练和评估针对大型语言模型的提示注入攻击检测系统。该数据集通过精心设计的恶意提示与良性输入，模拟了真实世界中的对抗性交互场景，使得机器学习模型能够学习识别复杂的攻击模式，如指令覆盖、上下文切换和目标劫持等。这一经典使用场景不仅推动了检测算法的性能提升，还为模型鲁棒性测试奠定了数据基础。

实际应用

在实际应用中，Chatbot Prompt Injection Detection Dataset被广泛集成于商业和开源的大型语言模型平台，用于构建实时输入过滤系统。例如，聊天机器人服务提供商利用该数据集训练的分类器，能够自动拦截恶意用户试图绕过系统指令的注入攻击，从而保护模型输出的安全性与可靠性。此外，该数据集还支持安全审计工具的开发，帮助组织评估其AI系统的防御能力，降低因提示注入导致的数据泄露或服务滥用的风险。

衍生相关工作

基于该数据集，学术界和工业界衍生了一系列经典研究工作。例如，研究人员通过微调BERT、RoBERTa等预训练模型，提出了高效的提示注入检测架构；同时，该数据集也激发了对抗性样本生成技术的创新，如使用强化学习模拟更隐蔽的攻击策略。这些工作不仅扩展了AI安全的知识边界，还催生了多个开源检测工具和基准测试套件，为后续研究提供了重要的技术参考和实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集