SEACrowd/xl_jailbreak

Name: SEACrowd/xl_jailbreak
Creator: SEACrowd
Published: 2024-06-24 13:33:23
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/xl_jailbreak

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于论文《Multilingual Jailbreak Challenges in Large Language Models》的数据。

提供机构：

SEACrowd

原始信息汇总

Xl Jailbreak 数据集概述

基本信息

名称: Xl Jailbreak
许可证: MIT
语言:
- Javanese (jav)
- Vietnamese (vie)
- Thai (tha)
任务类别: Prompting
标签: Prompting

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集加载

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/xl_jailbreak", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

加载数据集使用默认配置

dset = sc.load_dataset("xl_jailbreak", schema="seacrowd")

查看所有可用子集（配置名称）

print(sc.available_config_names("xl_jailbreak"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

引用

bibtex @misc{deng2023multilingual, title={Multilingual Jailbreak Challenges in Large Language Models}, author={Yue Deng and Wenxuan Zhang and Sinno Jialin Pan and Lidong Bing}, year={2023}, eprint={2310.06474}, archivePrefix={arXiv}, primaryClass={cs.CL} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在大型语言模型安全性研究领域，多语言越狱攻击已成为一项严峻挑战。为探究这一现象，SEACrowd/xl_jailbreak数据集应运而生，其构建源自论文《Multilingual Jailbreak Challenges in Large Language Models》。该数据集精心选取了爪哇语、越南语和泰语三种东南亚语言，通过系统性地收集和整理针对大型语言模型的多语言越狱提示（prompting）样本，旨在揭示不同语言环境下模型安全漏洞的共性与差异。数据集的版本管理严谨，源版本为1.0.0，经SEACrowd整合后更新至2024.06.20版本，确保了数据的时效性与可追溯性。

使用方法

研究人员可通过多种方式便捷地使用该数据集。最直接的方法是利用HuggingFace的datasets库，调用load_dataset函数并指定数据集名称“SEACrowd/xl_jailbreak”，同时设置trust_remote_code=True以启用自定义代码执行。对于SEACrowd生态的用户，推荐使用seacrowd库，通过sc.load_dataset函数加载默认配置，或通过sc.available_config_names查看所有可用子集名称，再使用sc.load_dataset_by_config_name按需加载特定子集。详细的使用指南可参考SEACrowd数据中心的官方文档。加载后的数据可直接用于多语言越狱攻击的检测、模型安全性的评估与改进研究。

背景与挑战

背景概述

随着大语言模型在全球范围内的广泛应用，其安全性问题日益凸显，尤其是针对非英语语言的越狱攻击（jailbreak）挑战成为研究热点。在此背景下，来自新加坡管理大学和阿里巴巴达摩院的研究人员于2023年提出了XL Jailbreak数据集，由Yue Deng、Wenxuan Zhang、Sinno Jialin Pan和Lidong Bing等学者共同创建，旨在系统性地评估多语言环境下大语言模型的脆弱性。该数据集聚焦于爪哇语、越南语和泰语三种东南亚语言，通过设计特定的提示语（prompting）任务，揭示了现有安全机制在低资源语言中的显著缺陷。XL Jailbreak的发布为多语言大模型安全研究提供了关键基准，推动了跨语言鲁棒性评估的发展，对全球范围内人工智能安全治理具有重要参考价值。

当前挑战

该数据集所解决的领域问题在于，当前大语言模型的安全对齐（safety alignment）策略主要基于英语数据训练，导致其对非英语语言的越狱攻击防御能力严重不足。具体挑战包括：第一，跨语言语义迁移的复杂性使得恶意提示在翻译过程中可能绕过安全过滤器，例如爪哇语中的文化特定表达可能被模型误判为无害；第二，低资源语言的标注数据匮乏，难以构建全面的攻击模板库，研究人员需依赖人工专家进行语言学和安全性双重标注，过程耗时且易引入主观偏差；第三，模型在不同语言上的安全表现存在显著差异，同一越狱技术在泰语上的成功率可能远高于越南语，这种非对称性增加了统一防护策略的设计难度。

常用场景

经典使用场景

在大型语言模型的安全性评估领域，SEACrowd/xl_jailbreak数据集为研究者提供了一个跨语言、跨文化的红队测试基准。该数据集聚焦于爪哇语、越南语和泰语等东南亚语言，通过精心构造的对抗性提示（jailbreak prompts），系统性地检验多语言大模型在面对恶意指令时的鲁棒性。研究者可借助该数据集复现论文中的实验设置，评估模型在低资源语言场景下的安全防御机制，从而揭示语言多样性对模型对齐策略的潜在影响。

解决学术问题

该数据集直击当前大模型安全研究中的关键盲区——多语言场景下的越狱攻击泛化问题。现有安全对齐工作多集中于英语，而SEACrowd/xl_jailbreak通过构建跨语言攻击样本，证明了语言差异可显著削弱模型的安全防线。它帮助学界量化了模型在非英语语言上的脆弱性，推动了多语言红队测试方法论的发展，并为研究语言间安全迁移效应提供了标准化的实验平台。

实际应用

在实际部署中，该数据集可用于构建多语言内容安全审核系统。企业可基于其攻击样本对面向东南亚市场的聊天机器人、翻译工具等产品进行压力测试，识别并修补模型在特定语言上的安全漏洞。此外，它辅助开发者设计语言感知的安全过滤层，确保AI服务在跨文化交互中保持合规性，降低因语言差异引发的有害内容生成风险。

数据集最近研究