MultiJail

Name: MultiJail
Creator: Walled AI
Published: 2024-08-09 16:48:37
License: 暂无描述

Hugging Face2024-08-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/walledai/MultiJail

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含315个英语不安全提示，并被标注为九种非英语语言。这些语言分为高资源、中等资源和低资源三类。数据集的目的是研究大型语言模型在多语言环境下的安全挑战，特别是关于‘越狱’挑战的研究。

提供机构：

Walled AI

创建时间：

2024-08-09

原始信息汇总

多语言大型语言模型中的越狱挑战数据集

数据集信息

特征

prompt: 字符串类型
harms: 字符串序列
source: 字符串类型

分割

ar: 阿拉伯语，字节数55482，样本数315
zh: 中文，字节数40311，样本数315
sw: 斯瓦希里语，字节数43565，样本数315
ko: 韩语，字节数43804，样本数315
en: 英语，字节数41465，样本数315
it: 意大利语，字节数44543，样本数315
jv: 爪哇语，字节数41383，样本数315
th: 泰语，字节数81222，样本数315
vi: 越南语，字节数48708，样本数315
bn: 孟加拉语，字节数82208，样本数315

大小

下载大小: 212593字节
数据集大小: 522691字节

配置

default: 默认配置
- ar: 数据路径 data/ar-*
- zh: 数据路径 data/zh-*
- sw: 数据路径 data/sw-*
- ko: 数据路径 data/ko-*
- en: 数据路径 data/en-*
- it: 数据路径 data/it-*
- jv: 数据路径 data/jv-*
- th: 数据路径 data/th-*
- vi: 数据路径 data/vi-*
- bn: 数据路径 data/bn-*

标注统计

共收集了315个英语不安全提示，并将其标注为九种非英语语言。
高资源语言: 中文 (zh), 意大利语 (it), 越南语 (vi)
中资源语言: 阿拉伯语 (ar), 韩语 (ko), 泰语 (th)
低资源语言: 孟加拉语 (bn), 斯瓦希里语 (sw), 爪哇语 (jv)

伦理声明

本研究旨在探讨多语言环境下大型语言模型的安全挑战。我们强调研究仅用于学术和伦理用途，并反对任何形式的滥用或伤害。我们致力于开源研究中使用的数据，以促进漏洞识别、鼓励讨论和促进协作，从而提高多语言环境下大型语言模型的安全性。

引用

@misc{deng2023multilingual, title={Multilingual Jailbreak Challenges in Large Language Models}, author={Yue Deng and Wenxuan Zhang and Sinno Jialin Pan and Lidong Bing}, year={2023}, eprint={2310.06474}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

MultiJail数据集的构建基于对大型语言模型（LLMs）在多语言环境下的安全挑战研究。研究者首先收集了315个英文不安全提示，随后将其翻译并注释为九种非英语语言，包括高资源语言（如中文、意大利语、越南语）、中等资源语言（如阿拉伯语、韩语、泰语）以及低资源语言（如孟加拉语、斯瓦希里语、爪哇语）。这一过程旨在涵盖不同资源水平的语言，以全面评估LLMs在多语言环境中的安全性。

特点

MultiJail数据集的一个显著特点是其多语言覆盖范围广泛，涵盖了从高资源到低资源的多种语言类型。每个语言版本均包含相同数量的示例，确保了数据集的平衡性。此外，数据集中的每个条目均包含提示文本（prompt）、潜在危害（harms）以及数据来源（source），这些信息为研究者提供了丰富的上下文，便于深入分析LLMs在不同语言环境中的安全漏洞。

使用方法

MultiJail数据集主要用于评估和提升大型语言模型在多语言环境中的安全性。研究者可以通过该数据集识别模型在不同语言中的潜在漏洞，并开发相应的防御机制。数据集中的提示文本和危害标注可用于训练和测试模型的安全性能，特别是在多语言场景下的鲁棒性。此外，该数据集还可用于生成多语言安全训练数据，以应对无意或有意的模型越狱行为。

背景与挑战

背景概述

MultiJail数据集由Deng等人于2023年创建，旨在研究多语言环境下大型语言模型（LLMs）的安全性问题。该数据集由315个英文不安全提示组成，并标注为九种非英语语言，涵盖高资源语言（如中文、意大利语、越南语）、中资源语言（如阿拉伯语、韩语、泰语）和低资源语言（如孟加拉语、斯瓦希里语、爪哇语）。研究团队通过开源数据和开发SELF-DEFENSE框架，致力于识别和缓解LLMs在多语言环境中的潜在风险，为相关领域的安全研究提供了重要支持。

当前挑战

MultiJail数据集的研究面临两大挑战。首先，多语言环境下的LLMs安全问题复杂多样，不同语言资源的不均衡性增加了模型安全性的评估难度。高资源语言与低资源语言在数据质量和可用性上的差异，可能导致模型在某些语言中的表现不稳定。其次，数据集的构建过程中，如何确保跨语言标注的一致性和准确性是一个关键问题。不同语言的文化背景和表达方式差异显著，这对标注工作提出了更高的要求。此外，研究团队还需应对数据潜在被滥用的风险，确保研究成果仅用于学术和伦理目的。

常用场景

经典使用场景

MultiJail数据集在大型语言模型（LLMs）的多语言安全研究中具有重要应用。该数据集通过收集和标注多语言的不安全提示（prompts），为研究人员提供了一个标准化的测试平台，用于评估和提升LLMs在多语言环境下的安全性。特别是在高资源语言（如中文、意大利语、越南语）、中资源语言（如阿拉伯语、韩语、泰语）和低资源语言（如孟加拉语、斯瓦希里语、爪哇语）中，该数据集为模型的安全性和鲁棒性提供了全面的评估框架。

衍生相关工作

基于MultiJail数据集，研究人员开发了SELF-DEFENSE框架，该框架能够自动生成多语言安全训练数据，以应对LLMs在无意和有意越狱场景中的风险。这一框架不仅提升了模型的安全性，还为未来的多语言LLMs研究提供了新的方向。此外，该数据集还激发了更多关于多语言模型安全性的研究，推动了相关领域的创新和合作。

数据集最近研究