XSTest

Hugging Face2024-07-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/walledai/XSTest

下载链接

链接失效反馈

官方服务：

资源简介：

数据集XSTest旨在识别大型语言模型中的夸张安全行为。它包含250个安全提示和200个不安全提示，用于测试模型是否在安全和不安全提示之间保持适当的平衡。数据集的特征包括提示、焦点、类型、注释和标签。训练集包含450个样本，总大小为43841字节。数据集的目的是帮助构建更安全的语言模型，并揭示现有模型在处理安全相关提示时的系统性失败模式。

创建时间：

2024-07-03

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: CC BY 4.0
任务类别: 文本生成
数据集名称: exaggerated safety

数据集结构

特征

prompt: 字符串
focus: 字符串
type: 字符串
note: 字符串
label: 字符串

数据分割

test:
- 字节数: 43841
- 样本数: 450

文件信息

下载大小: 16964
数据集大小: 43841

配置

config_name: default
- 数据文件:
  - split: test
  - path: data/train-*

数据集内容

安全提示: 250个，涵盖十种提示类型
不安全提示: 200个

许可证

测试提示: Creative Commons Attribution 4.0 International license
模型完成: 遵循Meta、Mistral和OpenAI的原始许可证

引用

bibtex @article{rottger2023xstest, title={Xstest: A test suite for identifying exaggerated safety behaviours in large language models}, author={R{"o}ttger, Paul and Kirk, Hannah Rose and Vidgen, Bertie and Attanasio, Giuseppe and Bianchi, Federico and Hovy, Dirk}, journal={arXiv preprint arXiv:2308.01263}, year={2023} }

搜集汇总

数据集介绍

构建方式

XSTest数据集的构建旨在系统化地识别大型语言模型中的过度安全行为。该数据集包含250个安全提示和200个不安全提示，这些提示被精心设计以覆盖十种不同的提示类型。安全提示旨在测试模型在应对明显安全请求时的反应，而不安全提示则作为对比，用于验证模型在面对潜在有害请求时的拒绝能力。通过这种方式，XSTest能够揭示当前语言模型在安全性和实用性之间的平衡问题。

特点

XSTest数据集的特点在于其结构化和系统化的测试设计。数据集中的提示类型多样，涵盖了从日常对话到涉及敏感话题的多种情境，确保了测试的广泛性和深度。此外，数据集的构建基于对现有语言模型安全机制的深入分析，旨在通过对比安全与不安全提示的反应，揭示模型在安全策略上的潜在缺陷。这种设计使得XSTest成为评估和提升语言模型安全性的重要工具。

使用方法

使用XSTest数据集时，研究人员可以通过分析模型对安全和不安全提示的反应，评估模型的安全性能。具体而言，可以通过对比模型在不同类型提示下的拒绝率，识别模型是否存在过度安全行为。此外，该数据集还可用于训练和优化模型的安全机制，通过反馈学习等方法，提升模型在保持实用性的同时，有效拒绝不安全请求的能力。XSTest为语言模型的安全研究提供了一个标准化的测试平台。

背景与挑战

背景概述

XSTest数据集由Paul Röttger、Hannah Rose Kirk、Bertie Vidgen、Giuseppe Attanasio、Federico Bianchi和Dirk Hovy等研究人员于2023年联合开发，旨在系统化地识别大型语言模型中的过度安全行为。随着大型语言模型在生成内容时的广泛应用，确保其安全性和无害性成为研究重点。然而，模型在拒绝不安全提示的同时，也可能过度拒绝安全提示，导致用户体验下降。XSTest通过提供250个安全提示和200个不安全提示，帮助研究人员评估模型在安全性和有用性之间的平衡，为构建更安全的语言模型提供了重要工具。

当前挑战

XSTest数据集面临的挑战主要体现在两个方面。首先，在解决领域问题上，如何准确区分模型对安全提示和不安全提示的响应行为是一个核心难题。模型可能因过度敏感而拒绝安全提示，或因过于宽松而响应不安全提示，这种平衡的把握需要精细的评估标准。其次，在数据构建过程中，如何设计具有代表性的提示类型以覆盖多样化的语言场景，同时确保提示的清晰性和一致性，也是一个技术挑战。此外，数据集的扩展性和适用性也需要进一步验证，以适应不同语言模型的应用场景。

常用场景

经典使用场景

XSTest数据集主要用于评估大型语言模型在处理安全相关提示时的行为，特别是在模型是否过度拒绝安全提示的情况下。通过包含250个安全提示和200个不安全提示，该数据集能够系统地测试模型在安全性和实用性之间的平衡。研究人员可以利用这些提示来检测模型是否存在过度安全行为，即模型是否错误地将安全提示误判为不安全而拒绝执行。

实际应用

在实际应用中，XSTest数据集被广泛用于评估和优化商业和开源语言模型的安全性能。例如，企业可以利用该数据集测试其对话系统是否在用户输入涉及敏感话题时过度拒绝响应，从而避免用户体验的下降。此外，该数据集还可用于指导模型训练，帮助开发者在保持模型安全性的同时，提升其对用户需求的响应能力。

衍生相关工作

XSTest数据集的发布催生了一系列相关研究，特别是在语言模型安全性和实用性平衡领域。例如，基于XSTest的研究工作提出了新的模型校准方法，以减少模型对安全提示的过度拒绝。此外，该数据集还被用于开发更精细的提示分类算法，以区分真正的不安全提示和误判的安全提示。这些衍生工作进一步推动了语言模型安全评估技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集