bench-llm/or-bench

Name: bench-llm/or-bench
Creator: bench-llm
Published: 2024-06-22 08:43:23
License: 暂无描述

Hugging Face2024-06-22 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/bench-llm/or-bench

下载链接

链接失效反馈

官方服务：

资源简介：

OR-Bench是一个用于评估大型语言模型在拒绝有害提示和接受安全提示方面表现的数据集。它包含多个配置，如or-bench-80k、or-bench-hard-1k和or-bench-toxic，每个配置都包含prompt和category两个特征。数据集通过自动化流程生成看似有害的提示，并不断更新这些提示，以评估模型的表现。

OR-Bench is a dataset designed to evaluate the performance of large language models (LLMs) in rejecting harmful prompts and adhering to safe prompts. It includes multiple configurations such as or-bench-80k, or-bench-hard-1k, and or-bench-toxic, each of which contains two features: prompt and category. The dataset generates seemingly harmful prompts via an automated process and continuously updates these prompts to assess model performance.

提供机构：

bench-llm

原始信息汇总

OR-Bench 数据集概述

数据集基本信息

名称: OR-Bench
语言: 英语
标签:
- llm
- alignment
- over-alignment
许可证: CC BY 4.0

数据集配置

配置名称: or-bench-80k
- 特征:
  - prompt: string
  - category: string
配置名称: or-bench-hard-1k
- 特征:
  - prompt: string
  - category: string
配置名称: or-bench-toxic
- 特征:
  - prompt: string
  - category: string

数据文件

配置名称: or-bench-80k
- 数据文件:
  - 分割: train
  - 路径: or-bench-80k.csv
配置名称: or-bench-hard-1k
- 数据文件:
  - 分割: train
  - 路径: or-bench-hard-1k.csv
配置名称: or-bench-toxic
- 数据文件:
  - 分割: train
  - 路径: or-bench-toxic.csv

任务类别

text-generation
question-answering

搜集汇总

数据集介绍

构建方式

在大语言模型对齐研究领域，过度拒绝（over-refusal）现象日益受到关注，即模型因安全对齐而错误地拒绝回答本应正常处理的用户请求。为系统性地评估这一问题，研究者构建了OR-Bench数据集。该数据集的构建采用自动化流水线，通过精心设计的模板与扰动策略，生成大量表面看似有害、实则安全的提示（seemingly toxic prompts），从而模拟模型在实际应用中可能遇到的过度拒绝场景。数据集包含三个子集：or-bench-80k、or-bench-hard-1k和or-bench-toxic，分别对应大规模通用测试集、高难度挑战集和真正有害提示集，每个样本均由prompt和category两个字段构成。这种分层设计使得研究者能够从不同维度审视模型的行为边界。

特点

OR-Bench数据集的核心特点在于其精准聚焦于过度拒绝这一细粒度对齐问题，区别于传统仅关注安全拒绝率的基准。它通过同时衡量模型在安全提示上的拒绝率（越低越好）与在真正有害提示上的拒绝率（越高越好），构建了双维评估体系。数据集中的or-bench-hard-1k子集尤其值得关注，它包含最具迷惑性的安全提示，能够有效区分不同模型在过度拒绝上的表现差异。此外，or-bench-toxic子集提供了真实的有害内容参照，使评估更加全面。整体上，该数据集以雷达图等形式直观展示模型性能，理想模型应位于散点图的左上角，即高安全拒绝率与低过度拒绝率的完美平衡点。

使用方法

使用OR-Bench数据集时，研究者可通过HuggingFace平台直接加载各子集的CSV文件，每个文件均包含prompt与category两列。评估流程通常分为两步：首先，针对or-bench-80k与or-bench-hard-1k中的安全提示，计算模型的拒绝率，反映过度拒绝的严重程度；其次，针对or-bench-toxic中的有害提示，计算模型的接受率（即未能拒绝的比例），衡量安全对齐的实际效果。最佳对齐模型应在两个维度上均表现优异。研究者亦可利用在线Demo进行交互式探索，或基于公开的模型性能雷达图与散点图进行横向比较，从而定位自身模型的改进方向。

背景与挑战

背景概述

随着大型语言模型（LLM）在安全对齐领域的快速发展，过度拒绝（over-refusal）现象逐渐成为制约模型实用性的关键瓶颈。OR-Bench由研究团队于2024年创建，旨在系统性地评估LLM在面对看似有害但实际安全的提示时的过度拒绝行为。该数据集包含三个子集：or-bench-80k（大规模安全提示集）、or-bench-hard-1k（高难度安全提示集）以及or-bench-toxic（真实有害提示集），覆盖多种语义类别。其核心研究问题聚焦于量化模型在安全性与可用性之间的权衡，通过自动化流水线生成不断更新的表面毒性提示，为模型对齐研究提供了全新的评测范式。该数据集已广泛应用于Claude、GPT、Llama等主流模型系列的评估，对理解LLM对齐中的过度拒绝问题产生了深远影响。

当前挑战

OR-Bench所应对的核心挑战在于LLM对齐过程中安全性与可用性的矛盾。传统安全对齐方法常导致模型对无害提示产生过度拒绝，这一领域问题直接影响了用户体验和模型实用性。构建过程中，团队面临两大技术挑战：一是如何自动化生成大量看似有害但实际安全的提示，确保内容多样性且不引入真实风险；二是如何设计合理的评测维度，以区分模型对安全提示的合理拒绝与过度拒绝。此外，数据集的动态更新需求要求构建流程具备持续迭代能力，以应对模型对齐策略的演进。这些挑战共同构成了OR-Bench在推动LLM对齐研究中的关键价值所在。

常用场景

经典使用场景

在大语言模型对齐研究的璀璨星空中，OR-Bench数据集犹如一面精准的明镜，专门用于量化与剖析模型在安全对齐过程中产生的过度拒绝（over-refusal）现象。该数据集匠心独运地设计了三个核心子集：or-bench-80k囊括八万条看似具有毒性实则安全的提示，or-bench-hard-1k精选一千条极具迷惑性的高难度安全提示，而or-bench-toxic则聚焦于真正有害的查询。研究者通过对比模型在安全与看似有毒提示上的拒绝率，能够绘制出模型行为的二维图谱，从而精准定位其对齐策略的微妙失衡。

解决学术问题

OR-Bench数据集直面大语言模型安全对齐领域一个被长期忽视的学术困境：过度拒绝。当模型为追求极致安全而错误地将大量无害查询拒之门外时，不仅损害了用户体验，更暴露出对齐算法在泛化性与精确性之间的根本矛盾。该数据集通过系统化构建边缘案例，揭示了当前主流模型如Claude、GPT-4及Llama系列在区分真正有害与看似有害内容时的能力边界，为研究者提供了量化基准，推动了从简单规则约束到细粒度语义理解的范式转变，其影响已辐射至对齐理论、鲁棒性评估与安全伦理等多个学术分支。

衍生相关工作

OR-Bench的诞生催生了一系列富有洞见的衍生研究，深刻重塑了模型对齐领域的探索路径。受其启发，研究者开发了针对过度拒绝的细粒度缓解技术，如基于概率校准的拒绝策略与多阶段对齐框架；同时，该数据集被广泛应用于对比分析不同对齐方法（如RLHF、DPO与指令微调）在过度拒绝维度上的表现差异。此外，OR-Bench与安全对齐基准（如SafetyBench、AdvBench）形成互补，共同构建了评估模型安全行为的多维坐标系，推动了从单一拒绝率到精确率-召回率权衡的评估体系进化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集