JailBreakV-28K
收藏arXiv2024-04-19 更新2024-06-21 收录
下载链接:
https://huggingface.co/datasets/JailbreakV-28K/JailBreakV28k
下载链接
链接失效反馈官方服务:
资源简介:
JailBreakV-28K是由威斯康星大学麦迪逊分校创建的一个创新性基准数据集,旨在评估多模态大型语言模型(MLLMs)对各种越狱攻击的鲁棒性。该数据集包含28,000个测试案例,覆盖了广泛的对抗性场景,包括20,000个基于文本的越狱提示和8,000个基于图像的越狱输入。JailBreakV-28K通过模拟恶意查询,生成文本和图像结合的攻击样本,以检验MLLMs在面对复杂攻击时的表现。此数据集的应用领域主要集中在提高MLLMs的安全性和鲁棒性,解决模型在文本和视觉输入上的对齐漏洞问题。
JailBreakV-28K is an innovative benchmark dataset developed by the University of Wisconsin-Madison, aimed at evaluating the robustness of multimodal large language models (MLLMs) against diverse jailbreak attacks. This dataset contains 28,000 test cases covering a broad spectrum of adversarial scenarios, including 20,000 text-based jailbreak prompts and 8,000 image-based jailbreak inputs. JailBreakV-28K generates combined text-and-image attack samples by simulating malicious queries, to examine the performance of MLLMs when facing complex adversarial attacks. The main application scope of this dataset focuses on improving the security and robustness of MLLMs, and addressing the alignment vulnerabilities of the models across textual and visual inputs.
提供机构:
威斯康星大学麦迪逊分校
创建时间:
2024-04-04
搜集汇总
数据集介绍

构建方式
在构建JailBreakV-28K数据集时,研究团队首先精心编制了RedTeam-2K恶意查询数据集,该数据集涵盖16项安全政策,汇集了来自多个来源的2000条有害查询。基于此,团队运用多种先进的越狱攻击技术,包括逻辑攻击、说服攻击和模板攻击,针对大型语言模型生成文本型越狱提示,并通过筛选机制选取了5000条高效且独特的提示。随后,这些文本提示与四类图像(包括空白图像、随机噪声图像、自然图像及稳定扩散生成的合成图像)相结合,形成了20000个文本型越狱攻击样本。此外,团队还整合了最新的图像型越狱攻击方法,如FigStep和Query-Relevant攻击,生成了8000个图像型攻击样本,最终构成了包含28000个测试案例的综合性基准数据集。
特点
JailBreakV-28K数据集以其规模宏大和多样性著称,涵盖了文本型和图像型越狱攻击的广泛场景。该数据集不仅包含基于大型语言模型转移的越狱攻击,还融入了针对多模态大语言模型设计的图像攻击,从而全面评估模型在对抗性输入下的鲁棒性。数据集的查询内容跨越16项安全政策,涉及非法活动、暴力、恶意软件等多个敏感领域,确保了测试的深度和广度。此外,数据集中的图像输入类型丰富,包括自然图像、噪声图像和合成图像,这为研究多模态模型在不同视觉输入下的脆弱性提供了重要资源。
使用方法
使用JailBreakV-28K数据集时,研究人员可将其作为基准工具,评估多模态大语言模型在越狱攻击下的安全性能。具体而言,用户可将数据集中的文本-图像对输入到目标模型中,观察模型是否生成有害响应,并通过攻击成功率等指标量化模型的脆弱性。该数据集支持对文本编码器和视觉模块的单独或联合测试,有助于识别模型在文本和图像处理中的特定漏洞。此外,数据集的结构化设计便于进行跨模型比较和攻击方法分析,为开发更强大的安全对齐技术提供实证基础。
背景与挑战
背景概述
随着多模态大语言模型的迅猛发展,确保其免受恶意输入攻击并与人类价值观对齐已成为一项关键挑战。JailBreakV-28K 数据集于2024年由俄亥俄州立大学和威斯康星大学麦迪逊分校的研究团队提出,旨在评估大型语言模型的越狱攻击技术向多模态大语言模型的迁移性,从而系统检验后者在多样化对抗场景下的鲁棒性。该数据集构建了包含28,000个测试案例的基准,涵盖文本与图像两种模态的越狱攻击,其核心研究问题聚焦于多模态模型是否继承并放大了纯文本模型的脆弱性,为可信人工智能领域提供了重要的评估工具与研究方向。
当前挑战
JailBreakV-28K 所应对的核心领域挑战在于评估和提升多模态大语言模型抵御越狱攻击的鲁棒性,即防止模型被诱导生成违反安全策略的有害内容。具体挑战包括:模型对源自纯文本模型的越狱提示表现出高攻击成功率,揭示了其文本处理模块存在的显著安全漏洞;同时,构建过程面临多重挑战,例如需要精心策划覆盖16类安全策略的2,000个恶意查询,并确保其句法与语义多样性,还需将文本越狱攻击适配到多模态语境,并整合图像攻击以构建全面且规模庞大的评估基准。
常用场景
经典使用场景
在人工智能安全领域,JailBreakV-28K数据集为评估多模态大语言模型(MLLMs)的对抗鲁棒性提供了标准化测试平台。该数据集通过整合文本与图像两种模态的越狱攻击,构建了涵盖28,000个测试案例的综合性评估框架。研究人员利用该数据集系统性地检验MLLMs在面对逻辑混淆、说服性对抗提示等多样化攻击策略时的防御能力,特别是在恶意查询与对抗性图像组合场景下的模型表现。这种多维度评估方式为理解MLLMs的安全漏洞提供了前所未有的实验基础。
解决学术问题
该数据集有效解决了多模态模型安全评估中的关键学术问题:首次系统验证了文本模态越狱攻击向多模态场景的可迁移性。研究发现,针对纯文本大语言模型设计的对抗性提示能够以超过50%的平均攻击成功率突破MLLMs的防御机制,揭示了MLLMs继承自其文本编码器的固有脆弱性。这一发现挑战了传统认为多模态攻击主要依赖视觉漏洞的认知,推动学界重新审视MLLMs安全对齐的双模态特性,为构建更全面的防御体系提供了实证依据。
衍生相关工作
基于该数据集的研究催生了多模态安全领域的新兴研究方向。后续工作开始探索针对文本-视觉交叉漏洞的联合防御策略,如Adashield等自适应防护框架通过动态提示工程增强模型鲁棒性。同时,研究社区发展了更细粒度的安全评估基准,通过分析不同图像类型对攻击成功率的影响系数,深化了对多模态攻击传播机制的理解。这些衍生研究共同推动形成了从攻击检测到防御构建的完整研究链条,显著提升了多模态系统的安全评估水平。
以上内容由遇见数据集搜集并总结生成



