USAFEBENCH

Name: USAFEBENCH
Creator: 韩国科学技术院(KAIST), Adobe Research
Published: 2025-02-21 06:58:44
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

https://github.com/yeonjun-in/U-SafeBench

下载链接

链接失效反馈

官方服务：

资源简介：

USAFEBENCH是一个专为评估大型语言模型(LLM)用户特定安全性而设计的基准数据集。该数据集由韩国科学技术院(KAIST)和Adobe Research创建，包含157个用户档案，1,507个有害指令和429个良性指令，覆盖了多种安全风险场景。数据集旨在解决大型语言模型在用户特定安全性方面的评估问题。

USAFEBENCH is a benchmark dataset specifically designed for evaluating the user-specific safety of Large Language Models (LLMs). Developed by the Korea Advanced Institute of Science and Technology (KAIST) and Adobe Research, it contains 157 user profiles, 1,507 harmful instructions and 429 benign instructions, covering a variety of security risk scenarios. This dataset aims to address the evaluation issue of large language models in terms of user-specific safety.

提供机构：

韩国科学技术院(KAIST), Adobe Research

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

USAFEBENCH 数据集的构建采用了多层次的方法，首先通过深入的网络搜索和文献回顾，收集了涵盖各种生理和心理健康状况、犯罪背景等 157 个用户配置文件。随后，利用这些配置文件，从现有的 LLM 安全基准数据集中筛选并标注出针对特定用户群体存在安全风险的有害指令，并采用自动化和模板化方法进一步扩展了指令集合。此外，为了评估 LLM 的用户特定安全性，数据集还包含了对应于有害指令的良性指令，以检验 LLM 在安全指令上的执行能力。

特点

USAFEBENCH 数据集的特点在于它首次提出了用户特定安全性的概念，并针对这一概念构建了首个全面的基准数据集。该数据集不仅包含超过 150 个用户配置文件，还包含了超过 1,900 个真实世界的用户指令，有效地捕捉了潜在的风险场景。数据集还包括了一个评估协议，用于评估 LLM 的用户特定安全性和用户特定有用性，为这一领域提供了系统的评估方法。

使用方法

USAFEBENCH 数据集的使用方法包括两个主要步骤：首先，LLM 代理接收用户配置文件和指令，并生成考虑了用户配置文件的响应；其次，LLM-as-a-Judge 评估响应的拒绝意图，以确定 LLM 是否能够识别并拒绝生成对特定用户群体构成安全风险的响应。数据集提供了详细的评估指标，包括用户特定安全性和用户特定有用性得分，以及综合两者得分的调和均值，以便全面评估 LLM 的性能。

背景与挑战

背景概述

随着大型语言模型（LLM）的广泛应用，其安全性问题日益凸显。尽管已有大量的基准数据集用于评估LLM的安全性，但这些评估主要依赖于通用标准，而忽略了用户特定的安全标准。然而，LLM的安全标准可能因用户的特定背景而异，而非对所有用户普遍一致。为了解决这一研究空白，Yeonjun In等人于2025年提出了USAFEBENCH数据集，这是第一个专门用于评估LLM用户特定安全性的基准数据集。该数据集包含超过150个用户配置文件和1900多个真实世界的用户指令，有效地捕捉了潜在的风险场景。USAFEBENCH的引入不仅填补了当前基准数据集的局限性，还为LLM安全性研究提供了新的方向。

当前挑战

USAFEBENCH数据集面临着以下挑战：1) LLM在考虑用户特定安全标准时，无法保证安全性；2) 构建过程中需要考虑如何有效地捕捉和评估用户特定风险场景；3) 需要开发一种有效的评估协议，以评估LLM的用户特定安全性和用户特定有用性。此外，还需要探索如何通过提示工程或后训练方法来提高LLM的用户特定安全性。

常用场景

经典使用场景

USAFEBENCH数据集被广泛应用于评估大型语言模型（LLM）在特定用户情境下的安全性。该数据集包含了超过150个用户配置文件和1900多条真实世界的用户指令，旨在捕获可能出现的风险场景。研究者可以通过这些数据来评估LLM在处理特定用户请求时的安全性，确保模型能够识别并拒绝那些对特定用户群体构成安全风险的行为。

解决学术问题

USAFEBENCH数据集解决了当前LLM安全评估中的一个关键问题：如何评估模型在考虑用户特定安全标准时的表现。现有的安全评估框架通常依赖于通用标准，而忽略了用户特定的标准。USAFEBENCH引入了用户特定安全的概念，并开发了一个全面的基准数据集，用于评估LLM在处理用户特定属性和潜在风险时的安全性。该数据集揭示了当前LLM在用户特定安全性方面的不足，强调了进一步研究的必要性。

衍生相关工作

USAFEBENCH数据集的提出引发了相关领域的研究热潮。基于USAFEBENCH的评估结果，研究者们开始探索各种方法来提高LLM的用户特定安全性。例如，基于链式思维（CoT）的方法被提出并证明可以有效提高LLM的用户特定安全性。此外，USAFEBENCH还促进了LLM个性化研究的发展，研究者们开始关注如何根据用户特定属性来调整LLM的安全性。这些相关工作为LLM的安全性和可靠性提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集