MLLMJailbreak-ko

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/HAI-Lab/MLLMJailbreak-ko

下载链接

链接失效反馈

官方服务：

资源简介：

MLLMJailbreak-ko数据集是一个基于韩语的多模态大规模语言模型（MLLM）越狱攻击数据集。该数据集通过翻译现有的英语文本数据集，并应用FigStep、MML和SI-Attack方法创建而成。数据集包含图像和文本数据，文件结构包括FigStep、MML和SIAttack三个子目录。数据集适用于研究和开发针对MLLM的安全防御机制。数据集基于walledai/MultiJail、walledai/JailbreakBench和TrustAIRLab/in-the-wild-jailbreak-prompts数据集构建，并采用了Figstep、MML和SI-Attack方法。数据集发布在MIT许可证下，可用于学术和商业用途。

创建时间：

2026-04-20

原始信息汇总

MLLMJailbreak-ko 数据集概述

数据集简介

MLLMJailbreak-ko 是一个韩语多模态大语言模型（MLLM）越狱攻击数据集，由现有的英语文本数据集翻译为韩语后，使用 FigStep、MML 和 SI-Attack 三种方法构建而成。

数据集贡献者

该数据集由 Minseok Kang、Chanyoung Kim、Myungwon Lee、Heemang Choi 和 Dahuin Jung 共同创建。

数据集结构

数据集包含训练数据（Parquet 格式）和图像文件两部分。下载并解压后，文件结构如下：

working_directory/ ├── hf_cache └── images_ko/images_ko/ ├── FigStep/ ├── MML/ └── SIAttack/

下载与使用方法

数据集可通过 datasets 库加载，仓库 ID 为 HAI-Lab/MLLMJailbreak-ko
图像文件需单独下载 images_ko.tar 并解压到本地目录
训练数据中的 image 字段存储图像路径，可通过 PIL 库打开使用

原始提示词信息

数据集中 original_prompt_idx 对应的索引和原始提示词可在页面顶部的 Files and versions 中的 original_prompt.csv 文件查看。部分索引在数据集构建过程中被排除。

数据集来源与方法论

基于以下数据集构建：

walledai/MultiJail
walledai/JailbreakBench
TrustAIRLab/in-the-wild-jailbreak-prompts

使用以下方法论：

Figstep（Yichen Gong 等人）
MML（Yu Wang 等人）
SI-Attack（Shiji Zhao 等人）

许可证

该数据集采用 MIT 许可证发布。

致谢

本研究得到韩国科学与信息通信技术部（MSIT）的 AI 计算基础设施增强（GPU 租赁支持）用户支持计划资助（RQT-25-090040）。

搜集汇总

数据集介绍

构建方式

MLLMJailbreak-ko数据集基于现有英文文本数据集，通过将其翻译为韩语，并利用FigStep、MML和SI-Attack三种先进的攻击方法构建而成。该数据集由Minseok Kang、Chanyoung Kim、Myungwon Lee、Heemang Choi和Dahuin Jung共同创建，项目得到了韩国科学技术信息通信部的支持，并基于MultiJail、JailbreakBench和in-the-wild-jailbreak-prompts等开源数据集进行扩展。

特点

该数据集聚焦于韩语环境下的多模态大语言模型安全性评估，涵盖FigStep、MML和SI-Attack三类攻击模式，图像数据按攻击方法分类存储。数据集包含原始提示索引及对应英文源提示，便于追溯攻击来源，且部分索引在构建过程中被剔除，体现了数据清洗的严谨性。整体采用MIT开源协议发布，支持学术研究与工业应用。

使用方法

用户可通过HuggingFace Datasets库加载数据集主文件（parquet格式），并单独下载图像压缩包images_ko.tar。建议设置本地缓存目录以避免重复下载，使用tarfile模块解压图像后，即可通过示例代码访问每条数据的图像路径和文本信息。数据集提供完整的加载、解压与使用示例，方便快速集成到模型评测流程中。

背景与挑战

背景概述

随着多模态大语言模型（MLLM）在视觉与语言理解领域的飞速发展，其安全性问题日益凸显。MLLMJailbreak-ko数据集由韩国研究团队——包括Minseok Kang、Chanyoung Kim、Myungwon Lee、Heemang Choi和Dahuin Jung——于近期构建，旨在应对多模态模型在非英语环境下的对抗攻击风险。该数据集以现有的英文文本越狱攻击数据集为基础，通过翻译并将其与FigStep、MML和SI-Attack三种先进攻击方法结合，创建了首个面向韩语的MLLM越狱攻击评估基准。核心研究问题聚焦于：在跨语言和多模态场景下，模型如何抵御精心设计的文本与图像协同攻击。该数据集不仅填补了韩语多模态安全评估的空白，也为全球MLLM安全性研究提供了重要参考，推动了多语言、多模态对抗防御技术的发展。

当前挑战

MLLMJailbreak-ko数据集所解决的领域问题在于，现有越狱攻击研究多集中于英语场景，缺乏对其他语言环境下MLLM安全性的系统评估。韩语等非英语语言在语法结构、语义表达和文化语境上的独特性，使得模型防御面临更复杂的安全隐患。在构建过程中，团队遭遇了多重挑战：首先，将英文越狱提示精确翻译为韩语并保留攻击意图，需克服语言歧义和文化差异；其次，图像与文本的协同攻击设计需确保攻击的隐蔽性和有效性，避免模型轻易识别；此外，原始英文数据集中的部分提示因语境不适用而被剔除，增加了数据筛选的难度。这些挑战共同凸显了跨语言越狱攻击数据集构建的复杂性与必要性。

常用场景

经典使用场景

MLLMJailbreak-ko数据集专为评估韩语多模态大语言模型的安全性而构建，其经典使用场景聚焦于对视觉-语言联合模型进行对抗性攻击检测。研究者通过FigStep、MML和SI-Attack三种成熟方法，将原始英语中的越狱提示翻译并适配为韩语环境，生成包含图像与文本的多模态攻击样本。这一数据集为系统性地测试MLLM在面对精心设计的越狱指令时的鲁棒性提供了标准化基准，尤其适用于探究跨语言与跨模态信息如何被恶意利用以绕过模型安全护栏的场景。

衍生相关工作

基于MLLMJailbreak-ko，衍生工作主要沿三条路径展开：其一，开发多语言越狱攻击的迁移性分析方法，探究韩语攻击模板对英语、日语模型的跨语言泛化效果；其二，构建对抗性防御框架，例如设计基于韩语语法特征的输入净化器或视觉干扰消除模块；其三，推动文化感知型安全对齐研究，该数据集被用于训练能识别韩语俚语、特定历史典故等文化嵌入式攻击的鲁棒模型。这些工作共同拓展了多模态安全领域对语言与模态交互复杂性的认知边界。

数据集最近研究