normster/RuLES
收藏Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/normster/RuLES
下载链接
链接失效反馈官方服务:
资源简介:
RuLES(Rule-following Language Evaluation Scenarios)数据集是一个用于评估语言模型遵循规则能力的基准测试。它包含15个简单的文本场景,模型在这些场景中被指示遵循自然语言中的一组规则,同时与人类用户进行交互。每个场景都有一个简洁的评估程序,用于确定模型在对话中是否违反了任何规则。通过手动探索模型行为,作者识别了6类攻击策略,并收集了两组测试用例:一组来自手动测试的独特对话,另一组系统地实施了这6类策略。数据集的目标是提供一个具有挑战性的新环境,用于研究和防御对语言模型的手动和自动攻击。
RuLES(Rule-following Language Evaluation Scenarios)数据集是一个用于评估语言模型遵循规则能力的基准测试。它包含15个简单的文本场景,模型在这些场景中被指示遵循自然语言中的一组规则,同时与人类用户进行交互。每个场景都有一个简洁的评估程序,用于确定模型在对话中是否违反了任何规则。通过手动探索模型行为,作者识别了6类攻击策略,并收集了两组测试用例:一组来自手动测试的独特对话,另一组系统地实施了这6类策略。数据集的目标是提供一个具有挑战性的新环境,用于研究和防御对语言模型的手动和自动攻击。
提供机构:
normster
原始信息汇总
Can LLMs Follow Simple Rules?
数据集概述
该数据集包含用于评估语言模型遵循规则能力的测试案例,属于RuLES(Rule-following Language Evaluation Scenarios)基准测试的一部分。RuLES旨在通过15个简单的文本场景来测量语言模型在与人交互时遵循自然语言规则的能力。每个场景都有一个简洁的评估程序,用于判断模型是否在对话中违反了任何规则。
数据集内容
- 场景数量:15个简单文本场景
- 评估方法:每个场景都有一个评估程序,用于判断模型是否违反规则
- 攻击策略:通过手动探索模型行为,识别了6种攻击策略,并收集了两套测试案例
- 一套来自手动测试的独特对话
- 一套系统地实施6种策略的测试案例
模型评估
- 评估模型:包括GPT-4和Llama 2等流行的专有和开源模型
- 评估结果:所有模型都对各种手工制作的对抗性用户输入敏感,其中GPT-4表现最佳。此外,开源模型在基于梯度的攻击下显示出显著的漏洞。
数据集目的
RuLES旨在成为一个新的研究设置,用于探索和防御对语言模型的手动和自动攻击。
引用信息
@article{mu2023rules, title={Can LLMs Follow Simple Rules?}, author={Norman Mu and Sarah Chen and Zifan Wang and Sizhe Chen and David Karamardian and Lulwa Aljeraisy and Basel Alomair and Dan Hendrycks and David Wagner}, journal={arXiv}, year={2023} }
搜集汇总
数据集介绍

构建方式
RuLES(Rule-following Language Evaluation Scenarios)是一个专为评估大语言模型规则遵循能力而设计的基准测试集。其构建基于15个简洁的文本场景,每个场景中模型被指令遵守一组自然语言规则,同时与人类用户进行交互。每个场景配备了一个精炼的评估程序,用于自动检测对话中是否存在违规行为。研究团队通过人工探索模型行为,归纳出六类攻击策略,并据此收集了两套测试用例:一套源自手动测试中的独特对话,另一套则系统化地实现了六类攻击策略。
特点
该数据集的核心特点在于其程序化框架,能够自动、量化地衡量模型对开发者设定规则的遵循程度,尤其面对对抗性输入时。RuLES覆盖了多种主流模型(如GPT-4、Llama 2)的测试,揭示了所有模型均易受精心设计的手动攻击,同时开放模型在基于梯度的攻击下也表现出显著脆弱性。数据集以Apache-2.0许可发布,包含代码、演示和论文支持,便于研究者复现和拓展。
使用方法
使用RuLES时,用户需从GitHub仓库获取代码和详细说明。典型流程包括:选择或自定义15个场景之一,配置模型需遵守的自然语言规则,然后输入用户对话作为测试用例。数据集提供预定义的评估程序,自动分析模型响应是否违反规则。研究者可基于六类攻击策略生成新的对抗样本,或利用梯度攻击方法评估开放模型。结果可通过可视化工具(如论文中的汇总图)对比不同模型的鲁棒性。
背景与挑战
背景概述
随着大语言模型在现实任务中的广泛部署,如何可靠地约束其行为成为关键议题。由加州大学伯克利分校的Norman Mu等研究者于2023年提出的RuLES基准,聚焦于评估语言模型遵循开发者设定规则的能力。该研究团队通过设计15个简洁的文本场景,要求模型在自然语言交互中遵守明确规则,并开发自动化评估程序以检测规则违反情况。RuLES填补了现有安全评估体系中对规则遵循能力的系统性测试空白,揭示了GPT-4、Llama 2等主流模型在面对对抗性用户输入时的脆弱性,为模型对齐研究提供了可量化的新范式。
当前挑战
RuLES面临的核心挑战在于双重层面:首先,领域层面需解决语言模型在复杂交互中可靠遵循显式规则的难题,当前模型即便对简单规则(如“不生成辱骂内容”)也易被越狱技术绕过,且现有评估依赖人工审查,效率低下;其次,构建过程中需设计涵盖6类攻击策略的测试用例,包括手工构建的独特对话与系统性策略组合,同时需确保15个场景的规则设定、评估程序具备泛化性,以应对手动与梯度攻击的双重威胁,这对场景覆盖度与自动化检测的鲁棒性提出了严苛要求。
常用场景
经典使用场景
在大型语言模型(LLM)安全性评估的前沿领域,RuLES(Rule-following Language Evaluation Scenarios)基准测试被广泛用于衡量模型遵循显式规则的能力。该数据集包含15个简洁的文本场景,每个场景要求模型在与人机交互过程中严格遵守自然语言描述的规则,例如禁止生成有害内容。研究者通过精心设计的对抗性输入,系统性地评估模型在规则约束下的行为一致性,从而揭示其在面对越狱攻击时的脆弱性。这一经典使用场景为LLM的鲁棒性测试提供了标准化、可复现的评估框架,成为安全对齐研究的重要基石。
解决学术问题
RuLES数据集精准回应了当前学术界面临的核心难题:如何量化评估LLM在对抗性输入下遵循预设规则的能力。传统依赖人工审查的评估方法效率低下且难以规模化,而RuLES通过程序化的场景设计和自动化违规检测机制,首次实现了对规则遵循行为的客观、高效度量。研究团队基于该数据集识别出六类攻击策略,揭示了GPT-4、Llama 2等主流模型在手动与梯度攻击下均存在显著安全漏洞,这一发现推动了对抗性防御技术的理论突破,并为制定更严格的模型行为约束标准提供了实证依据。
衍生相关工作
RuLES的提出催生了多项具有影响力的后续研究。一方面,基于其六类攻击策略分类体系,学者们开发了更精细化的对抗性测试生成方法,如自动化搜索规则违反路径的梯度攻击框架。另一方面,该数据集启发了规则内嵌训练范式的探索,例如通过强化学习优化模型在约束条件下的决策边界。此外,RuLES与红队测试、宪法AI等安全对齐技术形成互补,共同推动了LLM可靠性评估从定性分析向定量基准的范式转变,相关成果已被多个AI安全顶会收录,并成为行业安全白皮书的核心参考案例。
以上内容由遇见数据集搜集并总结生成



