multi_jailbreak_augmented
收藏Hugging Face2025-05-18 更新2025-05-19 收录
下载链接:
https://huggingface.co/datasets/YoojongChoi/multi_jailbreak_augmented
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自Multilingual Jailbreak Challenges研究,包含三种语言(英语、韩语、斯瓦希里语)的样本。数据集被重新分类为8种禁用场景,包括成人内容、欺诈性欺骗活动、政府决策、有害内容、非法活动、政治竞选游说、非法行为和侵犯隐私。数据通过GPT-4o进行了分类和增强。
创建时间:
2025-05-17
搜集汇总
数据集介绍

构建方式
在大型语言模型安全研究领域,multi_jailbreak_augmented数据集通过多阶段流程构建。基于Multilingual Jailbreak Challenges论文的原始多语言数据,研究团队选取了高资源的英语、中等资源的韩语与低资源的斯瓦希里语构成三重语言维度。采用GPT-4o模型对样本进行语义重分类,将其归入成人内容、欺诈行为等八大禁止场景标签体系。为平衡数据分布,通过单样本引导的生成式增强技术,为每个标签类别补充至少30个新样本,并运用0.75相似度阈值筛选机制确保增强样本的语义保真度。
特点
该数据集最显著的特征在于其精心设计的跨语言安全评估框架。覆盖三种资源层级的语言体系,为研究语言模型在不同语言环境下的安全漏洞提供了对比基准。八类禁止场景标签系统源自跨语言越狱攻击研究,具有明确的语义边界和实际应用价值。经过严格筛选的增强样本不仅改善了数据平衡性,更通过语义相似度验证保持了原始数据的攻击模式特征。这种多语言、多场景、高质量的数据结构,为深入探究语言模型的对抗性攻击机制奠定了坚实基础。
使用方法
研究人员可借助该数据集开展多维度安全评估实验。在模型鲁棒性测试中,可将三种语言版本的测试集作为评估基准,系统分析语言模型在不同资源层级语言中的安全表现。针对越狱攻击防御研究,八大场景分类体系支持细粒度的攻击模式分析,帮助识别模型在特定风险领域的薄弱环节。数据增强样本可用于训练阶段的对抗性防御优化,通过暴露模型于多样化的攻击样本提升其安全防护能力。该结构化设计使得数据集既能服务于宏观的跨语言安全比较,也能支撑微观的防御策略开发。
背景与挑战
背景概述
随着大语言模型在多语言环境中的广泛应用,其安全性问题日益凸显。Multi_jailbreak_augmented数据集源于《多语言大语言模型越狱挑战》研究,由DAMO-NLP-SG团队构建,旨在系统探究跨语言场景下模型对抗性攻击的防御机制。该数据集聚焦英语、韩语和斯瓦希里语三类资源层级不同的语言,通过重构八类禁止性场景标签体系,为多语言伦理对齐研究提供了标准化评估基准。
当前挑战
该数据集需解决多语言越狱攻击检测这一核心难题,包括低资源语言语义歧义消解、跨文化禁忌内容界定等复杂问题。在构建过程中面临样本均衡性挑战,需通过GPT-4o生成式增强与语义相似度阈值筛选,确保扩充数据在保持0.75相似度下限的同时,不破坏原始语料的攻击模式特征。多标签体系迁移过程中还需克服不同语言间政策法规差异导致的标注一致性难题。
常用场景
经典使用场景
在大型语言模型安全研究领域,multi_jailbreak_augmented数据集为跨语言越狱攻击检测提供了标准化测试平台。研究者通过其涵盖英语、韩语和斯瓦希里语的平行语料,系统评估模型在面临欺诈活动、非法内容等八类禁忌场景时的防御能力。该数据集通过语义相似度控制的增强样本,有效支撑了多语言环境下对抗性攻击的对比实验。
解决学术问题
该数据集显著推进了多语言模型安全对齐机制的研究进程。通过构建高、中、低资源语言的平行越狱指令,解决了传统安全评测中语言覆盖度不足的缺陷。其精心设计的八类禁忌场景分类体系,为量化模型在政府决策、隐私保护等敏感领域的合规性提供了基准,推动了跨语言对抗攻击的理论建模与防御策略创新。
衍生相关工作
基于该数据集衍生的经典研究包括跨语言越狱攻击传播路径分析、多语言安全对齐的元学习框架等创新工作。众多团队利用其构建的增强样本,开发了基于语义一致性的数据清洗管道和动态防御算法。这些成果不仅深化了对低资源语言模型脆弱性的认知,更推动了如LanguageGuard等多语言安全基准测试体系的建立与发展。
以上内容由遇见数据集搜集并总结生成



