Libertor/prompt_injections
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Libertor/prompt_injections
下载链接
链接失效反馈官方服务:
资源简介:
该数据集通过提供任务特定的示例和提示来增强大型语言模型(LLMs),帮助提高LLMs的性能并控制其行为。数据集包含1000多行多种语言的提示注入示例,涉及提示泄露、越狱和模式切换等技术。文本语言包括英语、法语、德语、西班牙语、意大利语、葡萄牙语和罗马尼亚语。
This dataset of prompt injections enriches Large Language Models (LLMs) by providing task-specific examples and prompts, helping improve LLMs performance and control their behavior. The dataset contains over 1000 rows of prompt injections in multiple languages, including examples of prompt injections using techniques such as prompt leaking, jailbreaking, and mode switching. The text in the dataset is in English, French, German, Spanish, Italian, Portuguese and Romanian.
提供机构:
Libertor
搜集汇总
数据集介绍

构建方式
该数据集由Yanis Miraoui构建,旨在通过提供任务特定的提示注入示例来增强大语言模型(LLMs)的性能与行为控制能力。数据集包含超过1000行多语言提示注入样本,覆盖英语、法语、德语、西班牙语、意大利语、葡萄牙语和罗马尼亚语七种语言。构建过程中,数据仅由原始提示组成,无需额外标注,并通过收集多种注入技术(如提示泄露、越狱攻击、模式切换)的实例形成结构化语料库。数据集以单一列存储提示注入范例,便于直接用于模型微调或行为对齐研究。
特点
该数据集的核心特点在于其多语言覆盖与多样化注入技术集成。样本涵盖七种自然语言,具备跨语言泛化潜力,可支持多语种LLMs的安全性评估。技术层面,数据集整合了提示泄露(prompt leaking)、越狱(jailbreaking)及模式切换(mode switching)等典型攻击范式,为研究对抗性提示防御提供了丰富的负面示例。此外,数据集明确标注其内容可能具有危害性(如误导或攻击模型),强调需谨慎使用,其设计初衷是辅助开发者更精准地微调模型,增强对恶意提示的鲁棒性。
使用方法
该数据集适用于监督式微调或基于提示的控制机制研究。使用时,可直接将提示注入列作为训练输入,与目标安全输出(如拒绝恶意请求的响应)配对构建监督信号,以提升LLMs的拒答能力。多语言特性允许开发者在训练或评估阶段按语种拆分数据,分析模型在不同语言下的防御性能。鉴于数据包含潜在有害内容,建议在实验环境中隔离处理,避免直接集成至生产系统。推荐结合对抗性训练(adversarial training)策略,通过注入攻击样本帮助模型学习识别并规避恶意提示模式。
背景与挑战
背景概述
随着大型语言模型(LLMs)在自然语言处理领域的广泛应用,其安全性与可控性成为亟待解决的关键问题。在此背景下,Yanis Miraoui于近期构建了Prompt Injections数据集,旨在系统性地收集并分类针对LLMs的提示注入攻击样本。该数据集涵盖英语、法语、德语、西班牙语、葡萄牙语、意大利语及罗马尼亚语共七种语言,包含超过1000条精心设计的攻击实例,涉及提示泄露、越狱及模式切换等多种攻击技术。作为首个多语言提示注入基准数据集,它为研究LLM脆弱性提供了标准化测试平台,显著推动了对抗性提示防御策略的发展,对保障AI系统的安全部署具有里程碑式的意义。
当前挑战
该数据集主要应对两大挑战。在领域层面,LLMs面临提示注入攻击的严重威胁,攻击者可通过恶意构造的输入诱导模型泄露敏感信息、绕过安全限制或执行未经授权的操作,传统基于规则或监督微调的防御方法难以有效应对此类动态、多变的攻击模式。在构建过程中,数据集面临攻击样本多样性不足与语言覆盖范围有限的难题,需确保每种语言均包含足够且具有代表性的攻击变体,同时避免样本同质化。此外,还需谨慎平衡攻击样本的恶意性与研究伦理,防止数据被滥用。这些挑战共同考验数据集在真实性、全面性与安全性之间的协调能力。
常用场景
经典使用场景
在大型语言模型(LLM)的安全与对齐研究领域,Prompt Injections数据集扮演了关键角色。该数据集被广泛用于评估和提升LLM对恶意指令的鲁棒性,是红队测试(red-teaming)和安全微调的标准基准。通过提供超过1000条涵盖提示泄露、越狱攻击和模式切换等多种技术的多语言注入样例,研究者能够系统性地检验模型在面对试图劫持其行为或泄露内部信息的对抗性输入时的表现,从而有效强化模型的防御机制。
实际应用
在实际应用中,该数据集助力企业级AI服务的安全部署。例如,在构建客服聊天机器人或内容生成工具时,安全团队利用这些注入样例对模型进行压力测试,识别并修复被诱导输出敏感信息或违反政策内容的逻辑漏洞。金融机构和医疗平台可将其集成到开发流水线中,确保LLM在处理用户输入时不会因精心构造的提示而泄露私密数据或执行未授权操作,从而满足合规与信任要求。
衍生相关工作
Prompt Injections数据集催生了多项重要衍生工作,其中包括基于该数据集的攻击模式分类法,以及针对特定注入技术的防御算法,如基于一致性检查的输入过滤器和对抗性训练策略。开源社区由此涌现出诸如“Prompt Guard”和“Injection Detector”等实用工具,它们将数据集中的样本作为训练和验证资源。此外,该数据集也启发了大规模、多轮对话场景下的注入攻击研究,推动形成更全面的安全评估框架,持续塑造LLM安全对齐技术的前沿方向。
以上内容由遇见数据集搜集并总结生成



