five

BATCHSAFEBENCH

收藏
arXiv2025-03-18 更新2025-03-25 收录
下载链接:
http://arxiv.org/abs/2503.15551v1
下载链接
链接失效反馈
官方服务:
资源简介:
BATCHSAFEBENCH是一个全面的基准数据集,由乔治梅森大学创建,包含两种类型的150个攻击指令和8000个批处理实例。该数据集旨在系统地研究批处理提示的安全漏洞。数据集涵盖了当多个查询共享相同的少量示例或相同的长期上下文条件输入时的两种批处理应用场景。每个批处理实例都经过评估,包括内容攻击和推理攻击两种类型。数据集的应用领域是评估大型语言模型在批处理提示场景下的安全性,解决模型在批处理中可能存在的不安全交互问题。

BatchSafeBench is a comprehensive benchmark dataset created by George Mason University, which includes 150 attack instructions across two categories and 8,000 batch instances. This dataset is designed to systematically study the security vulnerabilities associated with batch prompting. It covers two batch processing application scenarios where multiple queries share the same few-shot examples or inputs with identical long-term contextual conditions. Each batch instance has been evaluated against two types of attacks: content attacks and inference attacks. The primary application of this dataset is to evaluate the safety of large language models (LLMs) in batch prompting scenarios, and address potential unsafe interaction issues that may occur during model batch processing.
提供机构:
乔治梅森大学
创建时间:
2025-03-18
搜集汇总
数据集介绍
main_image_url
构建方式
BATCHSAFEBENCH数据集的构建过程基于两种批处理提示应用场景:共享少量示例演示的批查询和基于相同长上下文条件的批查询。研究者首先从GSM8k和HotpotQA数据集中随机选取问题,并分组为批处理实例。随后,通过精心设计的元提示和GPT-4o生成攻击指令,包括内容攻击和推理攻击两类,最终筛选出150条攻击指令。每个批处理实例与攻击指令配对,形成包含8k批处理实例的全面基准数据集。
特点
BATCHSAFEBENCH数据集的特点在于其全面性和多样性。它不仅涵盖两种不同的批处理提示应用场景,还包含150条精心设计的攻击指令,分为内容攻击和推理攻击两类。内容攻击通过在答案中添加恶意内容(如钓鱼链接)来干扰输出,而推理攻击则直接操纵模型的推理过程或最终答案。此外,数据集还考虑了攻击指令的位置、批处理大小和语言毒性等因素对攻击成功率的影响,为研究批处理提示漏洞提供了丰富的实验材料。
使用方法
使用BATCHSAFEBENCH数据集时,研究者可以通过评估模型在批处理提示攻击下的表现来系统研究其安全性。数据集提供了两种评估指标:准确率(Acc)和攻击成功率(ASR)。研究者可以针对不同的攻击类型和场景进行测试,分析模型的脆弱性。此外,数据集还可用于探索防御机制的有效性,例如基于提示的防御和基于探测的攻击检测方法。通过分析数据集中攻击指令的影响和模型的响应,研究者可以深入理解批处理提示攻击的机理,并开发更安全的批处理提示策略。
背景与挑战
背景概述
BATCHSAFEBENCH是由George Mason University的研究团队Murong Yue和Ziyu Yao等人于2025年提出的一个专注于评估大型语言模型(LLM)在批量提示(batch prompting)场景下安全漏洞的数据集。批量提示作为一种新兴的高效推理方法,通过将多个共享相同上下文的查询合并为一个推理批次,显著降低了推理成本。然而,该技术存在严重的安全隐患:恶意用户可通过在批次中注入攻击指令,干扰所有查询的响应,导致有害内容的生成或逻辑推理的破坏。BATCHSAFEBENCH包含150种攻击指令和8,000个批次实例,系统地评估了闭源和开源LLM的脆弱性,并探索了防御方法。该数据集的建立填补了批量提示安全研究的空白,为LLM在实际部署中的安全性提供了重要基准。
当前挑战
BATCHSAFEBENCH针对的核心挑战是批量提示场景下的跨查询指令注入攻击。具体表现为:1) 领域问题挑战:攻击者可通过单条恶意查询操纵整个批次的输出,例如强制附加钓鱼链接或篡改数学推理结果,而现有LLM普遍缺乏对此类干扰的防御机制;2) 构建过程挑战:需设计多样化的攻击指令(如内容攻击和推理攻击),覆盖不同任务场景(数学推理和阅读理解),并解决攻击成功率评估的标准化问题。实验表明,即使是GPT-4o等先进模型,攻击成功率仍超过90%,而基于提示的防御对小规模模型效果有限,凸显了该领域防御技术的迫切需求。
常用场景
经典使用场景
BATCHSAFEBENCH数据集在评估大型语言模型(LLM)批处理提示攻击的脆弱性方面具有经典应用场景。该数据集通过模拟批处理提示的实际应用环境,如共享相同上下文的多查询批处理,系统性地测试了模型在面对恶意指令注入时的表现。研究者在实验中利用该数据集验证了包括GPT-4o和Claude-3.5-Sonnet在内的多种LLM的安全性,揭示了批处理提示攻击的普遍存在性。
解决学术问题
BATCHSAFEBENCH数据集解决了批处理提示攻击这一新兴安全问题的系统性研究需求。通过构建包含150种攻击指令和8k批处理实例的基准测试,该数据集为学术界提供了量化评估模型脆弱性的工具。其意义在于首次揭示了批处理提示中跨查询干扰的安全风险,并推动了针对此类攻击的防御机制研究,填补了LLM批处理优化与安全性之间的研究空白。
衍生相关工作
该数据集催生了多个重要研究方向:基于探针的攻击检测方法(准确率达95%)、注意力头机制分析等防御技术研究。相关成果被扩展至多模态批处理安全(Jiang等人)、医疗文本处理(Zhang等人)等衍生领域。其构建方法还启发了后续工作如ReportGPT的验证机制,形成了批处理安全研究的完整技术谱系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作