SafeDialBench

Name: SafeDialBench
Creator: 南京大学
Published: 2025-02-18 11:05:15
License: 暂无描述

arXiv2025-02-18 更新2025-02-19 收录

下载链接：

https://github.com/drivetosouth/SafeDialBench-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SafeDialBench是由南京大学等机构构建的一个细粒度安全评估基准，涵盖6个安全维度，包含22个对话场景，使用7种不同的越狱攻击方法生成了4000多个中英双语多轮对话。该数据集旨在评估大型语言模型在多轮对话中面对多样化越狱攻击时的安全性，包括识别不安全风险、处理不安全信息以及维持安全一致性等方面的能力。

SafeDialBench is a fine-grained safety evaluation benchmark developed by Nanjing University and other institutions. It covers 6 safety dimensions and includes 22 dialogue scenarios, with over 4000 Chinese-English bilingual multi-turn dialogues generated using 7 distinct jailbreak attack methods. This benchmark aims to evaluate the safety capabilities of Large Language Models (LLMs) when facing diverse jailbreak attacks in multi-turn dialogues, including their abilities to identify unsafe risks, handle unsafe information, and maintain safety consistency.

提供机构：

南京大学

创建时间：

2025-02-16

搜集汇总

数据集介绍

构建方式

SafeDialBench数据集通过设计一个双层级的层次安全分类法，涵盖了公平性、合法性、道德性、侵略性、伦理和隐私六个安全维度，并生成超过4000个多轮对话，涵盖22个对话场景，包括中文和英文。数据集构建过程中，使用了7种越狱攻击策略，如参考攻击和目的逆转，以增强对话生成数据的质量。此外，数据集还引入了一个创新的评估框架，用于评估LLMs在检测、处理不安全信息以及在面临越狱攻击时保持一致性的能力。

特点

SafeDialBench数据集的特点在于其细粒度的安全分类法，涵盖了多个安全维度，以及使用了多种越狱攻击策略来生成对话数据。数据集包含了大量的多轮对话，可以更全面地评估LLMs在不同场景下的安全性能。此外，数据集还引入了一个创新的评估框架，可以评估LLMs在检测、处理不安全信息以及在面临越狱攻击时保持一致性的能力。

使用方法

SafeDialBench数据集可以用于评估LLMs的安全性能，特别是在多轮对话场景下的安全性能。数据集的评估框架可以用于评估LLMs在检测、处理不安全信息以及在面临越狱攻击时保持一致性的能力。此外，数据集还可以用于开发更安全、更可靠的LLMs，以及用于研究LLMs的安全性和可靠性问题。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速发展，其安全性评估已成为关键议题。SafeDialBench数据集由南京大学、利物浦大学、加州大学圣地亚哥分校等机构的研究人员于2025年提出，旨在评估LLMs在多轮对话中的安全性。该数据集针对现有基准主要关注单轮对话或单一越狱攻击方法的局限性，以及未考虑LLMs识别和处理不安全信息的详细能力的问题，提出了一个细粒度的安全评估框架。SafeDialBench数据集包含超过4000个中英文多轮对话，涵盖了22种对话场景，并采用了7种越狱攻击策略，如参考攻击和目的反转，以增强数据集质量。该数据集通过评估17个LLMs，揭示了不同模型在安全性方面的优势和劣势，为LLMs的安全评估提供了宝贵的参考。

当前挑战

SafeDialBench数据集面临的挑战包括：1)领域问题挑战：多轮对话中LLMs的安全性问题，需要考虑公平性、合法性、道德、攻击性、伦理和隐私等六个维度；2)构建过程挑战：需要设计细粒度的安全分类法，并生成大量的多轮对话数据，同时采用多种越狱攻击策略来增强数据集的多样性。此外，还需要构建一个创新的评估框架，以评估LLMs在识别、处理不安全信息以及在面对越狱攻击时保持一致性的能力。

常用场景

经典使用场景

SafeDialBench数据集主要用于评估大型语言模型（LLMs）在多轮对话中的安全性。它通过设计两层的层次化安全分类法，涵盖了公平性、合法性、道德性、攻击性、伦理和隐私六个安全维度，并使用七种不同的越狱攻击策略，如引用攻击和目的反转，来生成超过4000个中英文多轮对话。这使得数据集能够全面评估LLMs在识别和处理不安全信息以及面对越狱攻击时保持一致性方面的能力。

衍生相关工作

SafeDialBench数据集的提出，推动了LLMs安全性评估领域的研究。例如，基于SafeDialBench数据集，研究人员可以开发新的评估方法、改进现有模型的安全性，以及探索LLMs在多轮对话中的安全性问题。此外，SafeDialBench数据集还可以用于开发更安全的对话系统，例如通过训练对话系统识别和处理SafeDialBench数据集中包含的不安全内容。

数据集最近研究