SaladBench
收藏Hugging Face2024-07-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/walledai/SaladBench
下载链接
链接失效反馈官方服务:
资源简介:
SaladBench数据集包含两个主要配置:mrq和prompts。mrq配置用于多选题问答任务,包含问题、选项、答案和类别等特征,适用于训练集。prompts配置用于生成安全相关的文本,包含提示、类别和来源等特征,适用于基础、攻击增强和防御增强集。数据集主要用于安全相关的文本分类和文本生成任务,涵盖多种数据源,如自指导和开源数据。
创建时间:
2024-07-03
原始信息汇总
数据集概述
数据集配置
-
mrq
- 特征:
question: 字符串choices: 字符串序列answers: 整数序列categories: 字符串序列
- 分割:
train: 2,196,394 字节, 3,840 样本
- 下载大小: 510,955 字节
- 数据集大小: 2,196,394 字节
- 特征:
-
prompts
- 特征:
prompt: 字符串categories: 字符串序列source: 字符串
- 分割:
base: 3,992,062 字节, 21,318 样本attackEnhanced: 13,632,986 字节, 5,000 样本defenseEnhanced: 61,845 字节, 200 样本
- 下载大小: 4,264,443 字节
- 数据集大小: 17,686,893 字节
- 特征:
数据文件
-
mrq
train:mrq/train-*
-
prompts
base:prompts/base-*attackEnhanced:prompts/attackEnhanced-*defenseEnhanced:prompts/defenseEnhanced-*
许可证
- Apache License 2.0
语言
- 英语
标签
- Safety
- AIGC
- LLM Safety
- Jailbreak
- Question-Answer
- Multiple Choice
数据集名称
- Salad
大小分类
- 10K<n<100K
任务分类
- 文本分类
- 文本生成
搜集汇总
数据集介绍

构建方式
SaladBench数据集的构建基于多源数据整合与层次化设计。其核心数据来源于自指导生成、开源数据集以及特定领域的安全测试数据。通过微调GPT-3.5模型生成自指导数据,并结合来自HH-harmless、HH-red-team、Advbench等开源数据集的内容,形成了涵盖多种安全场景的综合性基准。数据集的层次化设计体现在其分类体系上,涵盖了文本分类与生成任务,确保了对大语言模型安全性的全面评估。
特点
SaladBench数据集的特点在于其多层次的安全评估框架与多样化的数据来源。数据集不仅包含基础问题,还提供了增强攻击与防御场景的扩展数据,覆盖了从无害对话到潜在有害内容的多维度测试。其数据来源广泛,包括自指导生成、开源数据集及特定领域的安全测试数据,确保了数据的多样性与代表性。此外,数据集支持多任务评估,适用于文本分类与生成任务,为大语言模型的安全性研究提供了丰富的实验场景。
使用方法
SaladBench数据集的使用方法灵活多样,适用于大语言模型的安全性评估与优化研究。用户可通过加载数据集的不同配置(如基础问题、增强攻击与防御场景)进行多任务实验。数据集支持文本分类与生成任务,用户可根据需求选择相应的任务类型进行模型训练与测试。此外,数据集提供了详细的统计信息与数据来源说明,便于用户进行数据分析与结果验证。通过结合论文、代码与项目页面提供的资源,用户可以深入理解数据集的设计理念与应用场景,进一步提升研究效果。
背景与挑战
背景概述
SaladBench数据集由OpenSafetyLab团队于2024年发布,旨在为大语言模型(LLMs)提供一种层次化且全面的安全性评估基准。该数据集的核心研究问题聚焦于大语言模型在生成内容时的安全性,特别是在面对恶意提示或攻击性输入时的鲁棒性。数据集包含多种来源的问题和提示,涵盖了从自我指导生成到开源数据集的多维度数据。SaladBench的发布为大语言模型的安全性研究提供了重要的数据支持,推动了相关领域在模型鲁棒性和安全性评估方面的进展。
当前挑战
SaladBench数据集在解决大语言模型安全性评估问题时面临多重挑战。首先,数据集的构建需要涵盖多样化的攻击场景和防御策略,以确保评估的全面性。其次,数据来源的多样性和质量控制是另一大挑战,如何确保不同来源的数据在语义和逻辑上的一致性至关重要。此外,数据集的标注和分类需要高度的专业知识,以确保每个问题和提示的类别划分准确无误。最后,随着大语言模型的快速发展,数据集的更新和维护也需要持续跟进,以应对新兴的安全威胁和评估需求。
常用场景
经典使用场景
SaladBench数据集在大型语言模型(LLM)安全评估领域具有重要应用,特别是在多轮问答和文本生成任务中。该数据集通过提供多样化的问答对和提示词,帮助研究人员评估模型在面对不同类型安全威胁时的表现。其经典使用场景包括模型在对抗性攻击下的鲁棒性测试,以及模型在生成内容时的安全性评估。
衍生相关工作
SaladBench数据集催生了一系列关于LLM安全性的经典研究工作。例如,基于该数据集的研究提出了新的对抗性攻击检测方法和防御机制,进一步推动了模型安全性的理论发展。此外,该数据集还被用于开发开源工具和框架,如SALAD-BENCH项目,为社区提供了可复现的安全评估基准。
数据集最近研究
最新研究方向
在大型语言模型(LLM)安全评估领域,SaladBench数据集的最新研究方向聚焦于多层次、全方位的安全性基准测试。该数据集通过整合多种数据源,包括自指导生成、开源数据集以及多语言内容,构建了一个全面的安全评估框架。特别是在对抗性攻击和防御增强方面,SaladBench提供了丰富的实验数据,支持研究者深入探索LLM在面对恶意提示或攻击时的鲁棒性。这一研究方向不仅推动了LLM安全性的理论发展,还为实际应用中的模型部署提供了重要的参考依据。通过SaladBench,研究者能够更系统地评估和改进LLM的安全性,从而在人工智能伦理和安全领域产生深远影响。
以上内容由遇见数据集搜集并总结生成



