Jailbreak Evaluation Dataset
收藏arXiv2025-09-30 收录
下载链接:
https://huggingface.co/datasets/DAMO-NLP-SG/MultiJail
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含1525条有害查询的全面集合,这些查询被细分为61个具体的有害实例,覆盖了12种有害类型。该数据集旨在评估大型语言模型(LLM)对越狱策略的易受攻击性。此外,数据集还通过加入定制的恶意查询并整合了多个来源的信息,以确保进行全面的评估。该数据集规模达到1525条记录,其任务是评估LLM在面对越狱攻击时的可靠性。
This dataset is a comprehensive collection of 1,525 harmful queries, which are categorized into 61 specific harmful instances covering 12 harmful categories. It is designed to evaluate the vulnerability of Large Language Models (LLMs) against jailbreak attacks. Additionally, the dataset incorporates custom malicious queries and integrates information from multiple sources to ensure a comprehensive evaluation. With a total of 1,525 entries, this dataset aims to assess the reliability of LLMs when confronted with jailbreak attacks.
提供机构:
Authors of the paper
搜集汇总
背景与挑战
背景概述
该数据集是一个包含1525条有害查询的全面集合,覆盖12种有害类型并细分为61个实例,专门用于评估大型语言模型(LLM)对越狱攻击的易受攻击性和可靠性。它通过整合多来源和定制查询来确保评估的全面性,旨在测试LLM在面对恶意策略时的防御能力。
以上内容由遇见数据集搜集并总结生成



