SaladBench

Hugging Face2024-07-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/walledai/SaladBench

下载链接

链接失效反馈

官方服务：

资源简介：

SaladBench数据集包含两个主要配置：mrq和prompts。mrq配置用于多选题问答任务，包含问题、选项、答案和类别等特征，适用于训练集。prompts配置用于生成安全相关的文本，包含提示、类别和来源等特征，适用于基础、攻击增强和防御增强集。数据集主要用于安全相关的文本分类和文本生成任务，涵盖多种数据源，如自指导和开源数据。

创建时间：

2024-07-03

原始信息汇总

数据集概述

数据集配置

mrq
- 特征:
  - question: 字符串
  - choices: 字符串序列
  - answers: 整数序列
  - categories: 字符串序列
- 分割:
  - train: 2,196,394 字节, 3,840 样本
- 下载大小: 510,955 字节
- 数据集大小: 2,196,394 字节
prompts
- 特征:
  - prompt: 字符串
  - categories: 字符串序列
  - source: 字符串
- 分割:
  - base: 3,992,062 字节, 21,318 样本
  - attackEnhanced: 13,632,986 字节, 5,000 样本
  - defenseEnhanced: 61,845 字节, 200 样本
- 下载大小: 4,264,443 字节
- 数据集大小: 17,686,893 字节

数据文件

mrq
- train: mrq/train-*
prompts
- base: prompts/base-*
- attackEnhanced: prompts/attackEnhanced-*
- defenseEnhanced: prompts/defenseEnhanced-*

许可证

Apache License 2.0

语言

英语

数据集名称

Salad

大小分类

10K<n<100K

任务分类

文本分类
文本生成

搜集汇总

数据集介绍

构建方式

SaladBench数据集的构建基于多源数据整合与层次化设计。其核心数据来源于自指导生成、开源数据集以及特定领域的安全测试数据。通过微调GPT-3.5模型生成自指导数据，并结合来自HH-harmless、HH-red-team、Advbench等开源数据集的内容，形成了涵盖多种安全场景的综合性基准。数据集的层次化设计体现在其分类体系上，涵盖了文本分类与生成任务，确保了对大语言模型安全性的全面评估。

特点

SaladBench数据集的特点在于其多层次的安全评估框架与多样化的数据来源。数据集不仅包含基础问题，还提供了增强攻击与防御场景的扩展数据，覆盖了从无害对话到潜在有害内容的多维度测试。其数据来源广泛，包括自指导生成、开源数据集及特定领域的安全测试数据，确保了数据的多样性与代表性。此外，数据集支持多任务评估，适用于文本分类与生成任务，为大语言模型的安全性研究提供了丰富的实验场景。

使用方法

SaladBench数据集的使用方法灵活多样，适用于大语言模型的安全性评估与优化研究。用户可通过加载数据集的不同配置（如基础问题、增强攻击与防御场景）进行多任务实验。数据集支持文本分类与生成任务，用户可根据需求选择相应的任务类型进行模型训练与测试。此外，数据集提供了详细的统计信息与数据来源说明，便于用户进行数据分析与结果验证。通过结合论文、代码与项目页面提供的资源，用户可以深入理解数据集的设计理念与应用场景，进一步提升研究效果。

背景与挑战

背景概述

SaladBench数据集由OpenSafetyLab团队于2024年发布，旨在为大语言模型（LLMs）提供一种层次化且全面的安全性评估基准。该数据集的核心研究问题聚焦于大语言模型在生成内容时的安全性，特别是在面对恶意提示或攻击性输入时的鲁棒性。数据集包含多种来源的问题和提示，涵盖了从自我指导生成到开源数据集的多维度数据。SaladBench的发布为大语言模型的安全性研究提供了重要的数据支持，推动了相关领域在模型鲁棒性和安全性评估方面的进展。

当前挑战

SaladBench数据集在解决大语言模型安全性评估问题时面临多重挑战。首先，数据集的构建需要涵盖多样化的攻击场景和防御策略，以确保评估的全面性。其次，数据来源的多样性和质量控制是另一大挑战，如何确保不同来源的数据在语义和逻辑上的一致性至关重要。此外，数据集的标注和分类需要高度的专业知识，以确保每个问题和提示的类别划分准确无误。最后，随着大语言模型的快速发展，数据集的更新和维护也需要持续跟进，以应对新兴的安全威胁和评估需求。

常用场景

经典使用场景

SaladBench数据集在大型语言模型（LLM）安全评估领域具有重要应用，特别是在多轮问答和文本生成任务中。该数据集通过提供多样化的问答对和提示词，帮助研究人员评估模型在面对不同类型安全威胁时的表现。其经典使用场景包括模型在对抗性攻击下的鲁棒性测试，以及模型在生成内容时的安全性评估。

衍生相关工作

SaladBench数据集催生了一系列关于LLM安全性的经典研究工作。例如，基于该数据集的研究提出了新的对抗性攻击检测方法和防御机制，进一步推动了模型安全性的理论发展。此外，该数据集还被用于开发开源工具和框架，如SALAD-BENCH项目，为社区提供了可复现的安全评估基准。

数据集最近研究