five

SafeDialBench

收藏
github2025-02-18 更新2025-02-19 收录
下载链接:
https://github.com/drivetosouth/SafeDialBench-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SafeDialBench是一个细粒度的安全基准,用于评估大型语言模型在多轮对话中面对多种越狱攻击的安全性。

SafeDialBench is a fine-grained safety benchmark designed to evaluate the safety performance of large language models (LLMs) against various jailbreak attacks during multi-turn conversations.
创建时间:
2025-02-13
原始信息汇总

SafeDialBench-Dataset 数据集概述

数据集简介

  • 数据集名称:SafeDialBench-Dataset
  • 数据集用途:用于评估大型语言模型(LLMs)在多轮对话中面对多样化越狱攻击的安全性。

数据集描述

  • 构建目的:针对现有基准主要关注单轮对话或单一越狱攻击方法的问题,SafeDialBench旨在评估LLMs在各种越狱攻击下的安全性。
  • 数据内容:包含超过4000个中英文多轮对话,涵盖22个对话场景。
  • 越狱攻击策略:使用7种越狱攻击策略,如参考攻击和目的反转,以提高对话生成数据集的质量。

数据集结构

  • 对话场景:包含22个不同场景。
  • 语言:中英文两种语言。
  • 评估框架:测量LLMs在检测和应对不安全信息以及面对越狱攻击时的一致性。

实验结果

  • 表现最佳模型:Yi-34B-Chat 和 GLM4-9B-Chat。
  • 存在安全漏洞模型:Llama3.1-8B-Instruct 和 o3-mini。

引用信息

  • 论文标题:SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks
  • 作者:Hongye Cao, Yanming Wang, Sijia Jing, Ziyue Peng, Zhixin Bai, Zhe Cao, Meng Fang, Fan Feng, Boyan Wang, Jiaheng Liu, Tianpei Yang, Jing Huo, Yang Gao, Fanyu Meng, Xi Yang, Chao Deng, Junlan Feng
  • 年份:2025
  • arXiv2502.11090
搜集汇总
数据集介绍
main_image_url
构建方式
针对大型语言模型在多轮对话中的安全性评估需求,SafeDialBench数据集通过构建包含6个不同维度的双层层级分类体系,产生了超过4000个中英双语的多轮对话。这些对话涵盖了22种不同的场景,并采用7种不同的越狱攻击策略,如参考攻击和目的反转,以提升数据集在对话生成方面的质量。
特点
SafeDialBench数据集的特点在于其细粒度的安全性评估,它不仅考虑了模型在遭遇越狱攻击时的安全性,还创新性地构建了一个评估框架,用于衡量模型在检测和处理不安全信息以及面对攻击时保持一致性的能力。该数据集的构建旨在全面评估大型语言模型在多轮对话中的安全性表现。
使用方法
使用SafeDialBench数据集时,研究者可以根据数据集中的多轮对话和越狱攻击场景,对大型语言模型进行安全性的评估和比较。数据集提供的评估框架可以帮助研究者深入理解模型在处理不安全信息时的性能,以及在不同攻击策略下的表现差异。
背景与挑战
背景概述
SafeDialBench数据集是在大型语言模型(LLM)安全性日益受到重视的背景下创建的。该数据集由Hongye Cao等研究人员于2025年提出,旨在评估LLM在多轮对话中面对多样化‘越狱’攻击的安全性。SafeDialBench通过构建一个双层分级分类法,涵盖六个不同维度,生成了超过4000个中英双语的对话场景,针对22种对话情境进行了细致的研究。该数据集不仅为对话生成的安全性评估提供了高质量的数据,还为LLM的检测和处理不安全信息能力,以及面对‘越狱’攻击时的一致性维持,构建了一个创新的评估框架。SafeDialBench的发布对LLM的安全性研究产生了重要影响,为相关领域的研究提供了新的方法和工具。
当前挑战
SafeDialBench数据集面临的挑战主要包括:1)如何全面地评估LLM在多轮对话中面对多样化攻击的安全性;2)如何构建一个能够有效涵盖多种对话场景和攻击策略的评估框架;3)在构建数据集过程中,如何保证数据的多样性和质量,同时避免引入偏见。此外,数据集在构建过程中还必须考虑到攻击策略的创新性和实际应用中的有效性,以确保评估结果的准确性和可靠性。
常用场景
经典使用场景
SafeDialBench数据集针对大型语言模型在多轮对话中的安全性评估问题,提供了一个细致入微的评价基准。该数据集涵盖了22种对话场景,设计了超过4000个多轮对话实例,并采用了7种不同的越狱攻击策略,以评估模型在面临多样化攻击时的安全性表现。其经典使用场景在于,研究者可利用此数据集对大型语言模型进行安全性测试,确保模型在多轮对话中能够有效识别和处理不安全信息,同时保持对话的一致性。
解决学术问题
该数据集解决了现有安全评估基准主要关注单轮对话或单一越狱攻击方法的问题。SafeDialBench通过构建双层分级分类体系,细致考量了大型语言模型在多维度上的安全性表现,为学术研究提供了更为全面和深入的评估手段,对于促进大型语言模型的安全性研究和应用具有重要的意义和影响。
衍生相关工作
SafeDialBench数据集的构建,催生了一系列相关研究工作,如针对不同大型语言模型的安全性比较研究,以及基于此数据集的安全性增强策略开发等。这些衍生工作进一步拓展了数据集的应用范围,为相关领域的学术研究和产业发展提供了丰富的资源和参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作