MultiJail
收藏Hugging Face2024-08-09 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/walledai/MultiJail
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含315个英语不安全提示,并被标注为九种非英语语言。这些语言分为高资源、中等资源和低资源三类。数据集的目的是研究大型语言模型在多语言环境下的安全挑战,特别是关于‘越狱’挑战的研究。
提供机构:
Walled AI
创建时间:
2024-08-09
原始信息汇总
多语言大型语言模型中的越狱挑战数据集
数据集信息
特征
- prompt: 字符串类型
- harms: 字符串序列
- source: 字符串类型
分割
- ar: 阿拉伯语,字节数55482,样本数315
- zh: 中文,字节数40311,样本数315
- sw: 斯瓦希里语,字节数43565,样本数315
- ko: 韩语,字节数43804,样本数315
- en: 英语,字节数41465,样本数315
- it: 意大利语,字节数44543,样本数315
- jv: 爪哇语,字节数41383,样本数315
- th: 泰语,字节数81222,样本数315
- vi: 越南语,字节数48708,样本数315
- bn: 孟加拉语,字节数82208,样本数315
大小
- 下载大小: 212593字节
- 数据集大小: 522691字节
配置
- default: 默认配置
- ar: 数据路径
data/ar-* - zh: 数据路径
data/zh-* - sw: 数据路径
data/sw-* - ko: 数据路径
data/ko-* - en: 数据路径
data/en-* - it: 数据路径
data/it-* - jv: 数据路径
data/jv-* - th: 数据路径
data/th-* - vi: 数据路径
data/vi-* - bn: 数据路径
data/bn-*
- ar: 数据路径
标注统计
- 共收集了315个英语不安全提示,并将其标注为九种非英语语言。
- 高资源语言: 中文 (zh), 意大利语 (it), 越南语 (vi)
- 中资源语言: 阿拉伯语 (ar), 韩语 (ko), 泰语 (th)
- 低资源语言: 孟加拉语 (bn), 斯瓦希里语 (sw), 爪哇语 (jv)
伦理声明
- 本研究旨在探讨多语言环境下大型语言模型的安全挑战。我们强调研究仅用于学术和伦理用途,并反对任何形式的滥用或伤害。我们致力于开源研究中使用的数据,以促进漏洞识别、鼓励讨论和促进协作,从而提高多语言环境下大型语言模型的安全性。
引用
@misc{deng2023multilingual, title={Multilingual Jailbreak Challenges in Large Language Models}, author={Yue Deng and Wenxuan Zhang and Sinno Jialin Pan and Lidong Bing}, year={2023}, eprint={2310.06474}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
MultiJail数据集的构建基于对大型语言模型(LLMs)在多语言环境下的安全挑战研究。研究者首先收集了315个英文不安全提示,随后将其翻译并注释为九种非英语语言,包括高资源语言(如中文、意大利语、越南语)、中等资源语言(如阿拉伯语、韩语、泰语)以及低资源语言(如孟加拉语、斯瓦希里语、爪哇语)。这一过程旨在涵盖不同资源水平的语言,以全面评估LLMs在多语言环境中的安全性。
特点
MultiJail数据集的一个显著特点是其多语言覆盖范围广泛,涵盖了从高资源到低资源的多种语言类型。每个语言版本均包含相同数量的示例,确保了数据集的平衡性。此外,数据集中的每个条目均包含提示文本(prompt)、潜在危害(harms)以及数据来源(source),这些信息为研究者提供了丰富的上下文,便于深入分析LLMs在不同语言环境中的安全漏洞。
使用方法
MultiJail数据集主要用于评估和提升大型语言模型在多语言环境中的安全性。研究者可以通过该数据集识别模型在不同语言中的潜在漏洞,并开发相应的防御机制。数据集中的提示文本和危害标注可用于训练和测试模型的安全性能,特别是在多语言场景下的鲁棒性。此外,该数据集还可用于生成多语言安全训练数据,以应对无意或有意的模型越狱行为。
背景与挑战
背景概述
MultiJail数据集由Deng等人于2023年创建,旨在研究多语言环境下大型语言模型(LLMs)的安全性问题。该数据集由315个英文不安全提示组成,并标注为九种非英语语言,涵盖高资源语言(如中文、意大利语、越南语)、中资源语言(如阿拉伯语、韩语、泰语)和低资源语言(如孟加拉语、斯瓦希里语、爪哇语)。研究团队通过开源数据和开发SELF-DEFENSE框架,致力于识别和缓解LLMs在多语言环境中的潜在风险,为相关领域的安全研究提供了重要支持。
当前挑战
MultiJail数据集的研究面临两大挑战。首先,多语言环境下的LLMs安全问题复杂多样,不同语言资源的不均衡性增加了模型安全性的评估难度。高资源语言与低资源语言在数据质量和可用性上的差异,可能导致模型在某些语言中的表现不稳定。其次,数据集的构建过程中,如何确保跨语言标注的一致性和准确性是一个关键问题。不同语言的文化背景和表达方式差异显著,这对标注工作提出了更高的要求。此外,研究团队还需应对数据潜在被滥用的风险,确保研究成果仅用于学术和伦理目的。
常用场景
经典使用场景
MultiJail数据集在大型语言模型(LLMs)的多语言安全研究中具有重要应用。该数据集通过收集和标注多语言的不安全提示(prompts),为研究人员提供了一个标准化的测试平台,用于评估和提升LLMs在多语言环境下的安全性。特别是在高资源语言(如中文、意大利语、越南语)、中资源语言(如阿拉伯语、韩语、泰语)和低资源语言(如孟加拉语、斯瓦希里语、爪哇语)中,该数据集为模型的安全性和鲁棒性提供了全面的评估框架。
衍生相关工作
基于MultiJail数据集,研究人员开发了SELF-DEFENSE框架,该框架能够自动生成多语言安全训练数据,以应对LLMs在无意和有意越狱场景中的风险。这一框架不仅提升了模型的安全性,还为未来的多语言LLMs研究提供了新的方向。此外,该数据集还激发了更多关于多语言模型安全性的研究,推动了相关领域的创新和合作。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的多语言安全领域,MultiJail数据集的研究方向主要集中在多语言环境下的模型漏洞与安全性挑战。随着LLMs在多语言任务中的广泛应用,模型在多语言环境下的安全性问题日益凸显。该数据集通过收集和标注多语言的不安全提示(prompts),揭示了LLMs在多语言环境中的潜在漏洞,尤其是在低资源语言中的表现。研究还提出了SELF-DEFENSE框架,旨在自动生成多语言安全训练数据,以应对无意和有意触发的模型越狱(jailbreak)场景。这一研究不仅为多语言模型的安全性提供了新的视角,也为未来的多语言安全研究、合作与创新奠定了基础。
以上内容由遇见数据集搜集并总结生成



