Misbehavior-Bench

Hugging Face2026-02-08 更新2026-02-09 收录

下载链接：

https://huggingface.co/datasets/thuang5288/Misbehavior-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Misbehavior-Bench 是一个用于评估大型视觉语言模型（LVLM）在四种不同类别异常行为上的基准数据集。该数据集旨在通过证据不确定性量化的方法，检测模型在幻觉（Hallucination）、越狱（Jailbreak）、对抗攻击（Adversarial Attacks）和分布外失败（Out-of-Distribution, OOD Failures）等方面的表现。数据集包含四个主要子集，分别对应上述四种异常行为，每个子集包含CSV文件和相关的图像数据。该数据集是ICLR 2026论文《通过证据不确定性量化检测大型视觉语言模型的异常行为》的官方基准，适用于模型安全性改进和不确定性量化方法的验证。数据集规模介于10K到100K之间，语言为英文，涵盖多模态任务，并涉及AI安全、对抗攻击、鲁棒性等标签。

Misbehavior-Bench is a benchmark dataset for evaluating large vision-language models (LVLMs) across four distinct categories of anomalous behaviors. This dataset aims to detect model performance in scenarios including Hallucination, Jailbreak, Adversarial Attacks, and Out-of-Distribution (OOD) Failures via evidence uncertainty quantification methods. The dataset contains four main subsets corresponding to the four aforementioned anomalous behaviors, each including CSV files and associated image data. This dataset is the official benchmark for the ICLR 2026 paper titled "Detecting Anomalous Behaviors of Large Vision-Language Models via Evidence Uncertainty Quantification", and is applicable to model safety improvement and validation of uncertainty quantification methodologies. The dataset has a scale ranging from 10K to 100K, uses English as its primary language, covers multimodal tasks, and includes labels such as AI safety, adversarial attacks, and robustness.

创建时间：

2026-02-06

搜集汇总

数据集介绍

构建方式

在大型视觉语言模型安全评估领域，Misbehavior-Bench的构建遵循了系统化的工程原则。该数据集通过精心设计四个核心子集——幻觉、越狱、对抗攻击和分布外失效——来全面覆盖模型可能出现的异常行为。每个子集均包含结构化的CSV文件与对应的图像资源，数据来源于可控的生成与收集流程，确保了评估场景的多样性与代表性，为量化模型不确定性提供了标准化的测试基础。

特点

本数据集的核心特征在于其多维度的评估框架，专门针对大型视觉语言模型的四大安全隐患进行刻画。它不仅涵盖了模型内部生成的幻觉问题，还纳入了外部诱导的越狱与对抗攻击场景，以及面对未知数据时的分布外失效表现。这种分类体系使得研究者能够精准定位模型弱点，同时其多模态特性与中等规模的数据体量，为深入分析模型鲁棒性与安全性提供了丰富的实验素材。

使用方法

使用该数据集时，研究者可依据其清晰的目录结构，分别加载四个子集进行专项评估。每个子集均包含图像与对应的标注文件，支持视觉问答与文本生成任务的测试。通过运行配套的代码库，用户可以量化模型在不同异常场景下的不确定性表现，进而验证安全检测方法的有效性。该数据集直接服务于模型安全性的实证研究，为开发更可靠的视觉语言系统提供关键基准。

背景与挑战

背景概述

随着大规模视觉-语言模型在图像理解与文本生成任务中的广泛应用，其行为安全性与可靠性日益成为人工智能领域的关键研究议题。Misbehavior-Bench数据集由研究团队于2026年提出，并作为ICLR会议论文的核心评估基准，旨在系统化地刻画模型在幻觉、越狱攻击、对抗性样本及分布外场景下的异常行为。该数据集通过多模态交互情境的构建，为不确定性量化方法提供了验证基础，推动了模型鲁棒性与安全评估框架的发展，对提升智能系统的可信赖性具有重要影响。

当前挑战

该数据集致力于解决大规模视觉-语言模型在复杂现实应用中表现出的行为失范问题，其核心挑战在于如何准确识别并量化模型在生成内容中的幻觉倾向、对恶意提示的敏感性、对抗扰动的脆弱性以及面对未知数据分布的失效模式。在构建过程中，研究人员需克服多模态数据对齐的复杂性，确保评估场景的多样性与代表性，同时平衡攻击样本的效度与伦理边界，以建立全面且可复现的模型行为诊断基准。

常用场景

经典使用场景

在大型视觉-语言模型（LVLM）的安全性与可靠性评估领域，Misbehavior-Bench作为一个综合性基准测试集，其经典应用场景集中于系统性地量化模型在多种异常情境下的行为偏差。该数据集通过精心设计的四个子集——幻觉、越狱、对抗攻击和分布外失效——为研究人员提供了一个标准化的评估框架，用以检验模型在面临误导性输入、恶意提示或未知数据分布时的响应表现。这一场景不仅推动了模型鲁棒性测试的规范化，还为跨模型性能比较奠定了实证基础，促进了安全评估从定性描述向定量分析的转变。

衍生相关工作

围绕Misbehavior-Bench，已衍生出一系列聚焦于模型安全与鲁棒性的经典研究工作。例如，基于其构建的评估协议，研究者提出了多种不确定性量化技术，如证据深度学习在视觉-语言任务中的适应性扩展；同时，该数据集也激发了针对对抗防御、幻觉抑制及分布外检测的专项算法创新。这些工作不仅深化了对LVLM失效模式的理解，还推动了安全基准从单一模态向多模态的演进，为后续更全面的AI行为评估框架（如动态风险监测或跨任务泛化测试）提供了方法论借鉴。

数据集最近研究