DAMO-NLP-SG/MultiJail

Name: DAMO-NLP-SG/MultiJail
Creator: DAMO-NLP-SG
Published: 2023-10-13 07:56:04
License: 暂无描述

Hugging Face2023-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DAMO-NLP-SG/MultiJail

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究大型语言模型在多语言环境中的安全问题，特别是关于多语言越狱挑战的研究。数据集中包含了315个英文不安全提示，并将其注释为九种非英语语言。这些语言根据资源可用性分为高资源、中资源和低资源语言。高资源语言包括中文（zh）、意大利语（it）和越南语（vi）；中资源语言包括阿拉伯语（ar）、韩语（ko）和泰语（th）；低资源语言包括孟加拉语（bn）、斯瓦希里语（sw）和爪哇语（jv）。研究强调了学术目的和道德使用，并承诺开源数据以促进漏洞识别和讨论。

提供机构：

DAMO-NLP-SG

原始信息汇总

多语言大型语言模型中的越狱挑战数据集

数据集概述

许可证: MIT
任务类别: 对话
语言: 英语、中文、意大利语、越南语、阿拉伯语、韩语、泰语、孟加拉语、斯瓦希里语、爪哇语
数据规模: n<1K

数据集详情

收集统计: 共收集了315个英语不安全提示，并将其标注为九种非英语语言。
语言分类:
- 高资源语言: 中文、意大利语、越南语
- 中等资源语言: 阿拉伯语、韩语、泰语
- 低资源语言: 孟加拉语、斯瓦希里语、爪哇语

伦理声明

研究旨在探讨多语言环境中大型语言模型的安全挑战。强调研究仅用于学术和伦理用途，反对任何形式的滥用或伤害。
通过开源数据，旨在促进漏洞识别、鼓励讨论和促进合作，以增强多语言环境中大型语言模型的安全性。
开发了SELF-DEFENSE框架，自动生成多语言安全训练数据，以减轻无意和有意越狱场景的风险。

引用

@misc{deng2023multilingual, title={Multilingual Jailbreak Challenges in Large Language Models}, author={Yue Deng and Wenxuan Zhang and Sinno Jialin Pan and Lidong Bing}, year={2023}, eprint={2310.06474}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集