DAMO-NLP-SG/MultiJail
收藏Hugging Face2023-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DAMO-NLP-SG/MultiJail
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于研究大型语言模型在多语言环境中的安全问题,特别是关于多语言越狱挑战的研究。数据集中包含了315个英文不安全提示,并将其注释为九种非英语语言。这些语言根据资源可用性分为高资源、中资源和低资源语言。高资源语言包括中文(zh)、意大利语(it)和越南语(vi);中资源语言包括阿拉伯语(ar)、韩语(ko)和泰语(th);低资源语言包括孟加拉语(bn)、斯瓦希里语(sw)和爪哇语(jv)。研究强调了学术目的和道德使用,并承诺开源数据以促进漏洞识别和讨论。
提供机构:
DAMO-NLP-SG
原始信息汇总
多语言大型语言模型中的越狱挑战数据集
数据集概述
- 许可证: MIT
- 任务类别: 对话
- 语言: 英语、中文、意大利语、越南语、阿拉伯语、韩语、泰语、孟加拉语、斯瓦希里语、爪哇语
- 数据规模: n<1K
数据集详情
- 收集统计: 共收集了315个英语不安全提示,并将其标注为九种非英语语言。
- 语言分类:
- 高资源语言: 中文、意大利语、越南语
- 中等资源语言: 阿拉伯语、韩语、泰语
- 低资源语言: 孟加拉语、斯瓦希里语、爪哇语
伦理声明
- 研究旨在探讨多语言环境中大型语言模型的安全挑战。强调研究仅用于学术和伦理用途,反对任何形式的滥用或伤害。
- 通过开源数据,旨在促进漏洞识别、鼓励讨论和促进合作,以增强多语言环境中大型语言模型的安全性。
- 开发了SELF-DEFENSE框架,自动生成多语言安全训练数据,以减轻无意和有意越狱场景的风险。
引用
@misc{deng2023multilingual, title={Multilingual Jailbreak Challenges in Large Language Models}, author={Yue Deng and Wenxuan Zhang and Sinno Jialin Pan and Lidong Bing}, year={2023}, eprint={2310.06474}, archivePrefix={arXiv}, primaryClass={cs.CL} }



