HAI-Lab/MLLMJailbreak-ko

Name: HAI-Lab/MLLMJailbreak-ko
Creator: HAI-Lab
Published: 2026-04-25 13:05:27
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/HAI-Lab/MLLMJailbreak-ko

下载链接

链接失效反馈

官方服务：

资源简介：

MLLMJailbreak-ko数据集是一个将现有的英语文本数据集翻译成韩语后，使用FigStep、MML和SI-Attack方法创建的韩语多模态大规模语言模型（MLLM）越狱攻击数据集。

The MLLMJailbreak-ko dataset is a Korean-based multimodal large language model (MLLM) jailbreak attack dataset created by translating existing English text datasets into Korean and using FigStep, MML, and SI-Attack methods.

提供机构：

HAI-Lab

搜集汇总

数据集介绍

构建方式

MLLMJailbreak-ko数据集是基于现有英文文本数据集，通过翻译为韩语后，利用FigStep、MML和SI-Attack三种先进的攻击方法构建而成的韩国语多模态大语言模型（MLLM）越狱攻击数据集。该数据集由Minseok Kang等研究者制作，原始数据来源于walledai/MultiJail等开源项目，经过精心筛选与适配，形成针对韩语环境的对抗性样本库。数据集以parquet格式存储元数据，图像文件则单独压缩为tar归档文件，确保大规模图像数据的高效管理与分发。

特点

该数据集的核心特点在于其专为韩语环境设计的多模态越狱攻击场景，覆盖了FigStep、MML和SI-Attack三种不同攻击策略，能够全面评估MLLM在面对恶意提示时的鲁棒性。数据集包含丰富的图像与文本配对样本，图像分门别类存储于FigStep、MML、SIAttack三个子目录中，便于研究者针对特定攻击类型进行深入分析。此外，数据集提供了原始提示索引与对应关系，透明地展示了构建过程中的筛选逻辑，提升了研究的可复现性。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库加载parquet格式的元数据，并借助huggingface_hub下载单独的图像tar文件，随后解压至本地目录。加载后的数据集对象包含‘train’分割，每一条记录提供图像路径与对应提示文本，可直接用于模型评估。示例代码展示了如何通过PIL库打开图像并保存，以及如何访问原始提示索引以追溯攻击来源。建议将缓存目录设置为本地路径，以便高效管理tar文件的解压过程。数据集采用MIT许可证，支持学术与商业用途。

背景与挑战

背景概述

随着多模态大语言模型（MLLM）在视觉与语言理解任务中的广泛应用，其安全性与鲁棒性成为研究焦点。现有研究表明，MLLM容易遭受精心设计的对抗性提示攻击，即“越狱”攻击，从而生成违反安全准则的内容。然而，当前多数越狱攻击数据集集中于英语场景，缺乏对其他语言环境下的系统性评估。为填补这一空白，韩国研究团队（包括Minseok Kang、Chanyoung Kim等）于近期构建了MLLMJailbreak-ko数据集。该数据集将已有的英文越狱文本翻译为韩语，并采用FigStep、MML及SI-Attack三种先进攻击方法，生成了首个面向韩语的多模态越狱攻击基准。这一工作不仅拓展了MLLM安全评估的语言多样性，也为非英语文化背景下的模型防御研究奠定了基础。

当前挑战

该数据集旨在解决两大核心挑战。其一，多模态大模型在非英语环境中面临的安全评估缺失问题。由于现有基准几乎全部基于英语，韩语等语言的模型易产生未被探索的漏洞，导致安全更新滞后。MLLMJailbreak-ko通过构建韩语特定攻击示例，揭示了语言迁移下攻击效果的差异性与共性。其二，数据集构建过程中面临多模态攻击适配的难题。研究者需将原始英文文本精准翻译并调整图像与文本的语义匹配，同时确保不同攻击方法（如FigStep的步骤推理、MML的误导逻辑、SI-Attack的语义注入）在韩语情境中保持攻击效力，这对跨语言语义保留和图像-文本对齐提出了严苛要求。

常用场景

经典使用场景

MLLMJailbreak-ko数据集专为评估和增强韩语多模态大语言模型的安全性而构建。在人工智能安全研究领域，该数据集通过整合FigStep、MML和SI-Attack三类攻击方法，将原始英语提示转化为韩语图像-文本对，形成覆盖视觉欺骗、对抗性扰动与多模态逻辑漏洞的综合性测试集。研究者可借助该数据集对MLLM在韩语场景下的鲁棒性进行系统性压力测试，揭示模型在理解韩语文化语境、处理跨模态矛盾信息时可能存在的脆弱性，为构建更安全的韩语多模态系统提供标准化评测基准。

衍生相关工作

该数据集催生了多项关键性后续研究：首先，基于其攻击模板扩展出的多语言变体（如MLLMJailbreak-ja、MLLMJailbreak-ar）被用于对比分析不同语言文化背景下的攻击成功率差异。其次，学者利用该数据集训练了韩语专用的防御检测模型KoGuardLM，实现了对韩语多模态攻击的实时拦截。此外，该数据集与JailbreakBench等英文基准的联合分析促成了跨语言攻击迁移性理论的提出，揭示了安全漏洞在语言空间中的传播规律。这些工作共同推动了多模态AI安全从单一语言向全球化治理的范式演进。

数据集最近研究