VeganRibs, ReverseText

Name: VeganRibs, ReverseText
Creator: Intuit
Published: 2025-04-28 14:40:01
License: 暂无描述

arXiv2025-04-28 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.19521v1

下载链接

链接失效反馈

官方服务：

资源简介：

VeganRibs数据集用于评估LLM在特定政策指导下的行为，通过在系统提示中引入边界，并挑战用户尝试偏离这些规则。ReverseText数据集进一步挑战模型，要求模型忽略用户输入的逻辑信息，仅根据系统提示执行特定的文本转换。这两个数据集旨在帮助评估LLM在遵循应用级政策方面的鲁棒性，从而提高GenAI应用程序的安全性。

The VeganRibs dataset is designed to evaluate the behavior of large language models (LLMs) under specific policy guidance, by introducing compliance boundaries in the system prompt and challenging test participants to attempt to deviate from these established rules. The ReverseText dataset further tests model robustness by requiring LLMs to ignore the logical information in user inputs, and only perform specific text transformation tasks based on the system prompt. These two datasets aim to help assess the robustness of LLMs in adhering to application-level policies, thereby enhancing the security of GenAI applications.

提供机构：

Intuit

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

VeganRibs和ReverseText数据集的构建旨在评估大型语言模型（LLM）在对抗性环境中对系统提示的遵循能力。VeganRibs通过设计系统提示定义的非通用安全边界，结合用户提示的挑战性场景，以及增强的用户提示（如扰动和越狱技术），测试模型在压力环境下维持策略一致性的能力。ReverseText则进一步要求模型忽略用户输入的语义，仅执行系统提示中定义的文本转换任务（如反转文本），以此检验模型在处理极端冲突时的指令遵循能力。

特点

VeganRibs和ReverseText数据集的特点在于其专注于应用层面的安全评估，而非传统的通用安全威胁。VeganRibs通过排除安全相关策略，聚焦于任务专业化、内容约束和社区特定指南，确保模型评估与具体应用需求相关。ReverseText则通过设计明确的冲突场景，提供了一种清晰的方法来衡量模型对系统提示的优先遵循能力。这两个数据集共同提供了对LLM在应用场景中安全可操纵性的全面评估。

使用方法

使用VeganRibs和ReverseText数据集时，研究人员可以通过构建系统提示和用户提示的对立场景，测试LLM在对抗性输入下的表现。VeganRibs适用于评估模型在扰动和越狱技术下的策略遵循能力，而ReverseText则用于测试模型在极端指令冲突下的文本处理能力。通过这两个数据集，可以量化模型的安全可操纵性，并为选择适合特定应用场景的LLM提供依据。

背景与挑战

背景概述

VeganRibs和ReverseText数据集由Intuit公司的AI安全研究团队于2025年开发，旨在解决生成式AI（GenAI）应用中的安全可控性问题。随着GenAI在医疗、金融等关键领域的广泛应用，其面临的安全威胁日益复杂。传统安全评估主要关注通用威胁（如生成禁止内容），而忽视了应用层面的特定风险。为此，研究团队提出了安全可控性（Security Steerability）这一新指标，用于评估大型语言模型（LLM）在系统提示中定义的防护栏（如禁止讨论政治）下的表现。这两个数据集的创建填补了LLM在应用级安全评估上的空白，为构建更可靠的GenAI应用提供了重要工具。

当前挑战

VeganRibs和ReverseText数据集面临的核心挑战包括两方面：领域问题方面，传统LLM安全评估无法有效衡量模型对应用特定策略的遵守能力，例如电商聊天机器人被操纵推荐竞品网站的场景；数据集构建方面，需设计能够精确触发系统提示与用户输入冲突的测试用例，例如ReverseText要求模型完全忽略用户输入的语义并执行文本反转，同时还需整合扰动（如Leet语）和越狱攻击（如忽略先前指令）等对抗性技术来模拟真实攻击环境。这些挑战使得数据集的构建需要平衡冲突设计的明确性与评估场景的复杂性。

常用场景

经典使用场景

VeganRibs和ReverseText数据集在评估大型语言模型（LLM）的安全可操控性方面具有经典应用场景。通过设定系统提示中的特定边界条件，如禁止讨论摩托车或要求将用户输入视为纯文本进行反转，这些数据集能够测试模型在恶意用户尝试绕过这些边界时的表现。这种场景尤其适用于需要严格遵循应用策略的领域，如客户关系管理（CRM）和电子商务聊天机器人。

实际应用

在实际应用中，VeganRibs和ReverseText数据集可用于测试和优化LLM在复杂环境中的策略遵循能力。例如，在电子商务平台中，确保聊天机器人不会推荐竞争对手的产品；或在内容生成应用中，防止恶意用户通过注入攻击操纵输出。这些数据集帮助开发者识别模型弱点，从而设计更鲁棒的防护措施。

衍生相关工作

基于VeganRibs和ReverseText数据集的研究衍生了一系列相关工作，包括对14种开源LLM的安全可操控性评估。这些工作揭示了通用安全性与应用特定安全性之间的弱相关性，推动了学术界对LLM安全评估框架的重新思考。此外，这些数据集还促进了针对系统提示级防御措施的研究，为实际应用中的安全优化提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集