OR-Bench

Name: OR-Bench
Creator: 加州大学洛杉矶分校计算机科学系和加州大学伯克利分校EECS系
Published: 2024-05-31 23:44:33
License: 暂无描述

arXiv2024-05-31 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/bench-llm/or-bench

下载链接

链接失效反馈

官方服务：

资源简介：

OR-Bench是由加州大学洛杉矶分校和加州大学伯克利分校的研究团队创建的大规模数据集，专注于测量大型语言模型（LLMs）的过度拒绝问题。该数据集包含80,000个看似有害但实际上无害的提示，分布在10个有害类别中，旨在评估模型在拒绝有害输入时的表现。数据集的创建过程涉及自动生成看似有害的提示，并使用LLM作为仲裁者来确保提示的无害性。OR-Bench的应用领域主要集中在优化LLMs的安全性和有用性之间的平衡，帮助开发更安全、更有效的语言模型。

OR-Bench is a large-scale dataset developed by research teams from the University of California, Los Angeles (UCLA) and the University of California, Berkeley, focusing on measuring the over-rejection issue of Large Language Models (LLMs). This dataset contains 80,000 prompts that appear harmful but are actually harmless, distributed across 10 harmful categories, and is designed to evaluate models' performance when rejecting harmful inputs. The creation process of OR-Bench involves automatically generating seemingly harmful prompts, and utilizing LLMs as arbiters to verify the harmlessness of these prompts. The primary application scenarios of OR-Bench focus on optimizing the trade-off between the safety and usefulness of LLMs, assisting in the development of safer and more effective language models.

提供机构：

加州大学洛杉矶分校计算机科学系和加州大学伯克利分校EECS系

创建时间：

2024-05-31

搜集汇总

数据集介绍

构建方式

在大型语言模型安全对齐的背景下，OR-Bench的构建采用了一种创新的自动化流程。该流程首先利用Mixtral 8*7B模型生成涵盖十个常见拒绝类别的毒性种子提示，例如骚扰、欺骗和暴力等。随后，通过精心设计的提示词，将这些毒性种子重写为看似有害但实际安全的提示，确保生成内容在语义上贴近原始毒性主题，同时避免直接包含违法或不道德词汇。最后，采用由GPT-4-turbo、Llama-3-70b和Gemini-1.5-pro组成的模型集成作为审核器，通过多数投票机制筛选出安全提示，形成包含80,000条提示的大规模数据集，并从中提取出更具挑战性的1,000条硬提示子集。

使用方法

OR-Bench的使用旨在系统评估大型语言模型在安全对齐中的过度拒绝行为。研究人员可通过该基准测试模型对看似有毒提示的拒绝率，并结合毒性提示的拒绝率，综合分析模型在安全性与帮助性之间的平衡。评估时，建议采用关键词匹配与LLM判断相结合的方法：对于大规模数据集，可使用预定义的拒绝关键词进行高效筛选；对于硬提示子集和毒性提示，则推荐使用GPT-4等先进模型作为判断器，以捕捉间接拒绝等复杂情况。使用中需注意避免引入系统提示，以确保评估结果反映模型的默认行为。基准结果可用于揭示不同模型家族在安全对齐策略上的差异，并为优化安全与帮助性的权衡提供实证依据。

背景与挑战

背景概述

随着大型语言模型（LLM）在现实世界中的广泛应用，确保其安全对齐以防止恶意输出成为关键研究议题。2024年，由加州大学洛杉矶分校和伯克利分校的研究团队联合创建的OR-Bench数据集应运而生，旨在系统评估LLM的过度拒绝现象。该数据集聚焦于看似有害但实则良性的提示，核心研究问题在于量化安全对齐带来的副作用——即模型因过度谨慎而拒绝回答无害查询，从而降低其帮助性。OR-Bench包含80,000个跨10类常见拒绝类别的安全提示，为衡量模型在安全性与敏感性之间的权衡提供了首个大规模基准，推动了更精细的安全对齐算法发展。

当前挑战

OR-Bench所针对的领域挑战在于，现有安全基准主要关注模型拒绝有害内容的能力，但过度优化安全性可能导致模型对良性提示产生过度拒绝，损害其实用性。构建过程中的挑战则体现在多个层面：首先，自动生成大规模“看似有毒提示”需克服语义微妙性，即如何将有害种子改写为表面敏感却实质安全的查询；其次，提示审核环节依赖LLM集成作为裁判，可能引入模型家族偏见，且人类标注者因领域知识不足而表现不佳，增加了标注一致性的难度；此外，确保数据集中提示的多样性与类别平衡，同时避免包含未被识别的有害内容，亦是构建过程中的关键难题。

常用场景

经典使用场景

在大型语言模型安全对齐的研究领域，OR-Bench数据集被广泛用于评估模型在安全性与实用性之间的权衡表现。该数据集通过自动生成大规模看似有害但实则无害的提示，覆盖了欺骗、骚扰、暴力等十个常见拒绝类别，为研究者提供了一个系统化的测试平台。其经典使用场景包括测量不同模型在拒绝有害提示与过度拒绝无害提示之间的平衡能力，帮助识别模型在安全对齐过程中可能出现的保守倾向。

解决学术问题

OR-Bench数据集解决了大型语言模型安全对齐研究中过度拒绝现象的量化难题。传统安全基准主要关注模型拒绝有害内容的能力，但缺乏对模型因过度谨慎而拒绝无害提示的系统评估。该数据集通过提供大规模看似有害的良性提示，使研究者能够精确测量模型在安全性与实用性之间的权衡，揭示了安全对齐算法中普遍存在的过度拒绝副作用。其意义在于推动了更精细的安全对齐方法发展，促进模型在保持安全性的同时提升帮助性。

实际应用

在实际应用中，OR-Bench数据集被用于优化商业大型语言模型的部署策略。企业可利用该数据集测试模型在真实场景中的响应行为，识别模型在特定类别如隐私、非法活动等方面的过度拒绝倾向。例如，在客服对话系统中，数据集帮助开发者调整模型的安全阈值，避免因过度拒绝而影响用户体验。此外，该数据集还支持模型版本的迭代评估，如追踪GPT-3.5系列在不同版本中过度拒绝行为的变化，为模型更新提供数据依据。

数据集最近研究