PALIT BENCHMARK DATASET
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.13028v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个名为PALIT BENCHMARK DATASET的数据集,旨在评估大型语言模型安全工具的有效性和可用性。数据集包含恶意提示,用于测试安全工具在识别和防御恶意输入方面的性能。该数据集的创建是为了解决当前市场上缺乏对大型语言模型安全工具正式评估的问题,并推动安全工具的发展和改进。
This study constructs a dataset named PALIT BENCHMARK DATASET, which aims to evaluate the effectiveness and usability of large language model (LLM) security tools. This dataset contains malicious prompts to test the performance of security tools in identifying and defending against malicious inputs. The creation of this dataset is intended to address the current lack of formal evaluations for LLM security tools in the market, and to promote the development and improvement of such security tools.
提供机构:
爱丁堡大学信息学院
创建时间:
2025-05-19
搜集汇总
数据集介绍

构建方式
PALIT BENCHMARK DATASET的构建采用了多源数据融合的方法,结合了手工构建和自动化生成的恶意提示。研究团队首先设计了四种基准LLM应用场景(法语翻译、金融服务、代码生成和通用聊天),并基于这些场景手动创建了多样化的恶意提示,包括直接注入、前缀注入、拒绝抑制和角色扮演等技术。同时,利用Houyi、Garak和PromptMap等自动化工具生成了包含数学注入、上下文切换、外部浏览等高级攻击向量的提示。此外,还整合了Deepset.AI公开的提示注入数据集,最终形成了包含500个提示的平衡数据集,其中75.8%为恶意提示,24.2%为良性提示。
特点
该数据集的核心特点体现在三个维度:攻击场景的多样性覆盖了主流LLM应用领域;攻击技术的全面性包含从基础注入到高级编码攻击等12类技术;评估维度的多模态特性不仅标注了提示的恶意性,还记录了熵值、延迟等元数据。特别值得注意的是数据集的上下文敏感性设计,通过分离带系统提示和不带系统提示的测试场景,能够精确评估安全工具对上下文依赖型攻击的检测能力。这种设计使得该数据集成为目前最全面的LLM安全评估基准之一。
使用方法
使用该数据集时,建议采用分层评估框架:首先进行无上下文的基础检测,评估工具对独立恶意提示的识别能力;然后添加系统提示进行上下文感知测试,验证工具在真实应用场景中的表现。关键评估指标应包括精确率、召回率、FPR和延迟,特别需要关注攻击成功率(ASR)在不同攻击类型间的差异。研究人员可通过对比工具在手工提示与自动生成提示上的表现差异,深入分析各类防御技术的泛化能力。数据集中的熵值标注还可用于研究提示复杂性与检测效果的相关性。
背景与挑战
背景概述
PALIT BENCHMARK DATASET由爱丁堡大学信息学院的Sayon Palit和Daniel W. Woods于2025年5月创建,旨在评估大型语言模型(LLM)安全解决方案的有效性。随着LLM在医疗、金融等关键领域的广泛应用,其面临的安全威胁日益突出,特别是恶意查询导致的内部数据泄露和法律风险。该数据集通过构建包含恶意和良性提示的基准,填补了LLM安全工具评估的空白,为相关领域的研究和实践提供了重要支持。
当前挑战
PALIT BENCHMARK DATASET面临的挑战主要包括:1) 领域问题挑战:如何有效检测和防御多样化的提示注入攻击(如直接注入、间接注入)和越狱攻击,同时减少误报率;2) 构建过程挑战:数据集的构建需覆盖多种攻击场景(如数学注入、上下文切换),并确保恶意提示的代表性和真实性,同时平衡数据集中的恶意与良性提示比例以避免评估偏差。
常用场景
经典使用场景
PALIT BENCHMARK DATASET 主要用于评估大型语言模型(LLM)安全解决方案的有效性。该数据集包含恶意和良性提示的混合,旨在模拟真实场景中的攻击向量,如提示注入、越狱攻击等。研究人员利用该数据集测试不同安全工具在检测和防御这些攻击方面的性能,从而为LLM安全领域提供标准化评估基准。
实际应用
在实际应用中,PALIT BENCHMARK DATASET 被企业用于测试其部署的LLM安全解决方案的鲁棒性。例如金融和医疗行业的聊天机器人系统可通过该数据集验证其能否有效阻止敏感数据泄露或恶意指令执行。此外,安全厂商也借助该数据集优化其产品的检测算法,提升对新型攻击的防御能力。
衍生相关工作
该数据集催生了多项重要研究,如Liu等人提出的对抗性提示注入框架HouYi,以及Derczynski团队开发的Garak安全探测工具。相关衍生工作还包括Zhan等学者针对间接提示注入的评估基准,以及Greshake等人构建的系统性提示注入分类体系,这些研究共同推动了LLM安全领域的理论完善和方法创新。
以上内容由遇见数据集搜集并总结生成



