JailbreakV-28K/JailBreakV-28k
收藏Hugging Face2024-07-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/JailbreakV-28K/JailBreakV-28k
下载链接
链接失效反馈官方服务:
资源简介:
JailBreakV_28K数据集是一个用于评估多模态大语言模型(MLLMs)对越狱攻击鲁棒性的基准数据集。该数据集包含28,000个越狱文本-图像对,其中包括20,000个基于文本的LLM转移越狱攻击和8,000个基于图像的MLLM越狱攻击。数据集覆盖16种安全策略和5种不同的越狱方法。此外,RedTeam_2K数据集包含2,000个有害查询,用于识别LLMs和MLLMs的对齐漏洞,覆盖16种安全策略和8个不同的数据来源。
The JailBreakV_28K dataset is a benchmark designed to assess the robustness of MultiModal Large Language Models (MLLMs) against jailbreak attacks. It contains 28,000 jailbreak text-image pairs, including 20,000 text-based LLM transfer jailbreak attacks and 8,000 image-based MLLM jailbreak attacks. The dataset covers 16 safety policies and 5 diverse jailbreak methods. Additionally, the RedTeam_2K dataset includes 2,000 harmful queries aimed at identifying alignment vulnerabilities within LLMs and MLLMs, spanning 16 safety policies and incorporating queries from 8 distinct sources.
提供机构:
JailbreakV-28K
原始信息汇总
数据集概述
数据集名称
- JailBreakV_28K
许可
- MIT
任务类别
- 文本生成
- 问答
数据集大小
- 10K<n<100K
配置
- config_name: JailBreakV_28K
- split: mini_JailBreakV_28K
- path: JailBreakV_28K/mini_JailBreakV_28K.csv
- split: JailBreakV_28K
- path: JailBreakV_28K/JailBreakV_28K.csv
- split: mini_JailBreakV_28K
- config_name: RedTeam_2K
- split: RedTeam_2K
- path: JailBreakV_28K/RedTeam_2K.csv
- split: RedTeam_2K
数据集详情
JailBreakV_28K 和 mini_JailBreakV_28K 数据集列
- id: 唯一标识符
- jailbreak_query: 通过不同越狱攻击获得的越狱查询
- redteam_query: 来自 RedTeam_2K 的有害查询
- format: 越狱攻击方法,包括模板、说服、逻辑、figstep、查询相关
- policy: 红队查询违反的安全策略
- image_path: 图像文件路径
- from: 数据来源
- selected_mini: 如果数据在 mini_JailBreakV_28K 数据集中则为 "True",否则为 "False"
- transfer_from_llm: 如果越狱查询是从 LLM 越狱攻击转移过来的则为 "True",否则为 "False"
RedTeam_2K 数据集列
- id: 唯一标识符
- question: 有害查询
- policy: 红队查询违反的安全策略
- from: 数据来源
数据组成
RedTeam_2K
- 描述: 精心策划的包含 2,000 个有害查询的数据集,旨在识别 LLM 和 MLLM 中的对齐漏洞。该数据集涵盖 16 个安全策略,并包含来自 8 个不同来源的查询。
JailBreakV_28K
- 描述: 包含 28,000 个越狱文本-图像对的数据集,包括 20,000 个基于文本的 LLM 转移越狱攻击和 8,000 个基于图像的 MLLM 越狱攻击。该数据集涵盖 16 个安全策略和 5 种不同的越狱方法。
数据集概览
- RedTeam_2K: 包含 2,000 个有害查询,涵盖 16 个安全策略,来自 8 个不同来源。
- JailBreakV_28K: 包含 28,000 个越狱文本-图像对,涵盖 16 个安全策略和 5 种越狱方法。
数据集使用
python from datasets import load_dataset
mini_JailBreakV_28K = load_dataset("JailbreakV-28K/JailBreakV-28k", JailBreakV_28K)["mini_JailBreakV_28K"] JailBreakV_28K = load_dataset("JailbreakV-28K/JailBreakV-28k", JailBreakV_28K)["JailBreakV_28K"] RedTeam_2K = load_dataset("JailbreakV-28K/JailBreakV-28k", RedTeam_2K)["RedTeam_2K"]
搜集汇总
数据集介绍

构建方式
JailBreakV-28K数据集的构建,是在RedTeam-2K数据集的基础上,通过精心设计的安全策略,收集并整合了28,000个文本-图像对,旨在评估大型多模态语言模型对越狱攻击的鲁棒性。该数据集包括20,000个基于文本的LLM转移越狱攻击和8,000个基于图像的MLLM越狱攻击,涵盖了16种安全策略和5种不同的越狱方法。
特点
该数据集的特点在于其全面性与多样性,不仅包含了文本型的越狱攻击,还包含了图像型的攻击,使得数据集能够全面评估多模态语言模型在不同攻击场景下的表现。此外,数据集还提供了详细的攻击方法和安全策略信息,有助于研究者在模型评估和攻击模型定制化方面进行深入研究。
使用方法
使用JailBreakV-28K数据集时,用户可以通过Hugging Face的Dataset库加载mini_JailBreakV_28K、JailBreakV_28K和RedTeam_2K数据集。此外,用户可以依据数据集中的攻击脚本和评估脚本,对模型进行越狱攻击和评估,从而测试模型对越狱攻击的防御能力。
背景与挑战
背景概述
JailBreakV-28K数据集,创建于2024年,是由Weidi Luo、Siyuan Ma、Xiaogeng Liu等研究人员构建的,旨在评估多模态大型语言模型在面临越狱攻击时的鲁棒性。该数据集涵盖了28,000个越狱文本-图像对,包括20,000个基于文本的大型语言模型转移越狱攻击和8,000个基于图像的多模态语言模型越狱攻击,覆盖了16种安全策略和5种不同的越狱方法。JailBreakV-28K数据集的发布,为多模态语言模型的安全性研究提供了新的基准,对相关领域产生了显著影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:如何精确构建越狱攻击以测试模型的鲁棒性,以及如何在保证数据质量的同时,处理大量具有潜在危害性的数据。在研究领域问题方面,JailBreakV-28K数据集的挑战在于,如何有效识别和防御多模态大型语言模型在面临越狱攻击时的安全漏洞,以及如何提升模型对这类攻击的抵抗能力。
常用场景
经典使用场景
在当前人工智能技术迅猛发展的时代背景下,JailBreakV-28K数据集的应用显得尤为重要。该数据集的经典使用场景主要在于评估多模态大型语言模型在面对越狱攻击时的鲁棒性,通过模拟不同类型的攻击,为研究提供了丰富的实验材料。
实际应用
在实际应用中,JailBreakV-28K数据集可以被用于训练和测试多模态大型语言模型,以确保其在实际应用场景中能够抵御恶意攻击,保障信息安全和用户隐私。这对于金融、医疗、安全等敏感领域的人工智能应用尤其关键。
衍生相关工作
基于JailBreakV-28K数据集,已经衍生出了一系列相关的工作,包括对多模态大型语言模型安全性的深入研究,越狱攻击策略的优化,以及安全策略的有效性评估等。这些工作不仅推动了人工智能安全领域的发展,也为构建更加安全可靠的人工智能系统提供了理论和实践基础。
以上内容由遇见数据集搜集并总结生成



