OVERT

Name: OVERT
Creator: 加州大学伯克利分校
Published: 2025-05-28 10:52:41
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/yixiao-huang/OVERT

下载链接

链接失效反馈

官方服务：

资源简介：

OVERT数据集是一个专门为评估文本到图像模型中的过度拒绝行为而设计的大型基准数据集。它包含4600个看似有害但实际上无害的提示，以及1785个真正有害的提示，旨在评估安全性-实用性权衡。数据集分为九个安全相关类别，旨在严格评估过度拒绝的倾向。该数据集通过自动工作流程构建，以创建合成评估数据，并包括一个补充数据集OVERT-unsafe，用于评估安全性-实用性权衡。该数据集的创建过程包括使用LLMs生成提示、过滤和审计、去重、采样和使用Chameleon进行后处理。OVERT数据集适用于研究如何在不牺牲模型功能的情况下提高文本到图像模型的安全性对齐。

The OVERT Dataset is a large-scale benchmark dataset specifically developed to evaluate over-rejection behavior in text-to-image models. It encompasses 4,600 seemingly harmful but actually harmless prompts and 1,785 truly harmful prompts, with the goal of assessing the safety-usability tradeoff of text-to-image models. The dataset is partitioned into nine safety-related categories to enable rigorous evaluation of the model's over-rejection propensity. Built using an automated workflow to generate synthetic evaluation data, the OVERT Dataset also includes a supplementary dataset called OVERT-unsafe for safety-usability tradeoff assessment. Its development workflow covers prompt generation via LLMs, filtering and auditing, deduplication, sampling, and post-processing using Chameleon. This dataset is well-suited for research on enhancing safety alignment of text-to-image models while preserving their functional capabilities.

提供机构：

加州大学伯克利分校

创建时间：

2025-05-27

原始信息汇总

OVERT: Over-Refusal Evaluation on Text-to-Image Models

数据集概述

名称: OVERT (Over-Refusal Evaluation on Text-to-Image Models)
目的: 评估文本到图像（T2I）模型在安全相关类别中的过度拒绝问题。
规模: 包含4,600个看似有害但实际无害的提示（OVERT-mini）和1,785个真正有害的提示（OVERT-unsafe）。
类别: 覆盖9个安全相关类别，包括隐私（个人）、隐私（公共）、版权侵犯、自残、性内容、非法活动、不道德和不安全行为、歧视和暴力。

数据集构成

OVERT-mini: 4,600个无害提示，用于评估模型的过度拒绝行为。
OVERT-unsafe: 1,785个有害提示，用于评估模型的安全性与功能性之间的权衡。

数据集构建流程

提示生成: 通过LLMs从WildGuardMix或模板生成提示。
过滤与审核: 对生成的提示进行安全过滤和审核。
去重与采样: 使用Chameleon进行去重和采样。
最终数据集: 用于评估T2I模型的过度拒绝问题。

评估结果

模型评估: 包括Imagen-3、DALL-E-3、FLUX1.1-Pro、SD-3.5-Large等模型。
评估指标: 拒绝率（在无害提示上的拒绝百分比）和安全响应率（在有害提示上的安全响应百分比）。
结果展示: 不同模型在不同类别上表现出不同的拒绝行为（见图3和图4）。

使用方法

脚本调用: 使用main.py进行评估。 bash python main.py --model_name imagen-3.0-generate-002 --category sexual_content --split mini
参数说明:
- --model-name: 支持的模型包括Imagen-3、DALL-E-3、FLUX1.1-Pro、SD-3.5-Large。
- --category: 9个安全相关类别之一。
- --split: 可选择mini、full或unsafe数据集。

输出格式

结果存储: 存储在eval_logs/{category}/{model_name}目录下。
结果文件: eval_results_{split}.json，包含每个种子提示的评估结果。 json { "seed_prompt": "示例提示", "category": "类别", "outputs": [ { "prompt": "生成提示", "image_path": [], "error": "错误信息", "refused": 1 } ], "refusal_rate": 100.0 }

搜集汇总

数据集介绍

构建方式

OVERT数据集的构建采用了自动化合成评估数据的流程，通过大规模语言模型（LLM）生成看似有害但实际良性的提示词，并辅以一系列后处理步骤确保数据质量和类别覆盖。具体包括从WildGuardMix等现有LLM过拒绝数据集中提取种子提示词，使用Gemini-2.0-Flash转换为文本到图像（T2I）提示词，并通过过滤、去重和拒绝采样等步骤优化数据集。最终构建了包含4,600个良性提示词和1,785个真实有害提示词（OVERT-unsafe）的大规模基准，覆盖九个安全相关类别。

特点

OVERT数据集具有三大核心特征：首先，其覆盖范围广泛，涵盖隐私、版权、歧视等九大安全类别，实现了对文本到图像模型过拒绝行为的细粒度评估；其次，采用独特的配对设计，通过OVERT-mini（良性提示）和OVERT-unsafe（有害提示）的对照，可量化模型在安全性与实用性之间的权衡；最后，数据集支持动态策略适配，通过修改生成模板可灵活适应不同安全政策需求，体现了对多元文化价值观的兼容性。

使用方法

该数据集的使用包含三个关键环节：评估阶段需通过API或交互界面测试目标模型对OVERT-mini和OVERT-unsafe提示词的拒绝率；验证阶段需采用视觉语言模型（如GPT-4o、Gemini-Flash）对生成图像进行安全性标注；分析阶段应重点关注模型在特定类别（如NSFW内容）的过拒绝倾向及其与安全过滤机制的关联。值得注意的是，针对不同安全策略需求，用户可通过调整提示生成模板定制评估数据，但需保持原始评估流程的一致性以确保结果可比性。

背景与挑战

背景概述

OVERT（OVEr-Refusal evaluation on Text-to-image models）是首个针对文本到图像（T2I）模型过度拒绝（over-refusal）行为的大规模基准测试数据集，由加州大学伯克利分校的研究团队于2025年提出。该数据集旨在系统评估T2I模型在安全对齐过程中对良性提示的过度拒绝现象，涵盖9个安全相关类别，包含4,600个表面敏感但实际无害的提示（OVERT-mini）和1,785个真实有害提示（OVERT-unsafe）。其创新性在于通过自动化流程合成评估数据，解决了传统安全基准仅关注有害内容而忽略模型实用性下降的问题，为研究安全-效用权衡提供了量化工具。

当前挑战

领域挑战：1) T2I模型难以区分表面敏感词与真实有害意图，导致对教育类、创作类提示的过度拒绝，损害模型实用性；2) 安全机制设计存在缺陷，如DALL-E-3-Web在非法活动类别中拒绝良性提示却接受对应有害提示。构建挑战：1) 合成数据需平衡触发拒绝的敏感性与真实无害性，如暴力类别需通过夸张描述实现视觉可渲染性；2) 多模态评估存在偏差，VLMs对抽象类别（隐私/歧视）的判断依赖文本提示，而开源模型Chameleon-7B的拒绝采样可能引入选择偏差。

常用场景

经典使用场景

OVERT数据集作为首个系统性评估文本到图像（T2I）模型过度拒绝行为的大规模基准，广泛应用于模型安全对齐研究领域。其核心场景包括对Imagen-3、DALL-E-3等主流T2I模型进行跨类别（如隐私、版权、歧视等九大安全领域）的过度拒绝行为测试。通过量化模型在4600个表面敏感但实际无害的提示词（OVERT-mini）上的拒绝率与1785个真实有害提示词（OVERT-unsafe）上的安全响应率，研究者可绘制如图1所示的安全-效用权衡曲线，揭示模型在保守安全策略与实用功能间的平衡状态。

衍生相关工作

OVERT催生了多个重要研究方向：1) OR-Bench等后续工作扩展了LLM领域的过度拒绝评测；2) SafetyDPO等研究利用其数据训练扩散模型的安全对齐模块；3) WildGuard团队基于该框架开发了多模态内容审核工具。其方法论启发了Chameleon-7B等模型在拒绝采样中的应用，并推动VLMs在内容安全评估中的标准化进程（如GPT-4o、Gemini-Flash的多数投票机制）。

数据集最近研究