RMHackBench

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/sdfss1/RMHackBench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置都是一个多模态数据集，包含文本（查询、响应）和图像。主要配置包括：权威信号（T1）、前提合规（C1）、质量声明附加（C2）、安全姿态（T2）和冗长填充（P1）。每个配置都有一个测试集，包含240-241个样本。数据集特征包括：唯一标识符（id）、查询文本（query）、图像（image）、图像ID（image_id）、响应列表（responses）、答案列表（answer）和来源（source）。数据集采用CC-BY-4.0许可协议。

创建时间：

2026-04-02

原始信息汇总

数据集概述

基本信息

数据集名称: RMHackBench
数据集地址: https://huggingface.co/datasets/sdfss1/RMHackBench
许可证: CC BY 4.0

数据集配置

该数据集包含多个配置（config），每个配置对应一个独立的子集。

配置列表

Authority Signaling (T1)
Premise Compliance (C1)
Quality-Claim Append (C2)
Safety Posturing (T2)
Single_Test
Single_V1
Verbosity Padding (P1)
T2

数据结构

所有配置共享相似的数据特征（features），具体如下：

特征（Features）

id: (数据类型: string) 样本唯一标识符。
query: (数据类型: string) 查询文本。
image: (数据类型: image) 图像数据。
image_id: (数据类型: string) 图像标识符。
responses: (数据类型: list[string]) 响应列表（文本）。
answer: (数据类型: list[int32]) 答案列表（整数）。
source: (数据类型: string) 数据来源标识（部分配置包含此特征，Single_Test配置无此特征）。

数据划分与规模

所有配置仅包含一个数据划分：测试集（test）。

各配置的详细规模如下：

配置名称	样本数量	数据集大小（字节）	下载大小（字节）
Authority Signaling (T1)	240	41,581,064	568,214,836
Premise Compliance (C1)	240	45,274,679	226,270,270
Quality-Claim Append (C2)	240	54,649,897	225,603,812
Safety Posturing (T2)	240	43,439,616	789,093,108
Single_Test	240	131,636,045	133,660,112
Single_V1	241	134,401,560	134,398,546
Verbosity Padding (P1)	240	42,588,068	635,200,903

文件结构

每个配置的数据文件路径模式如下：

{配置名称}/test-* （例如：Authority Signaling (T1)/test-*）
配置T2的路径为：data/T2/test-*.parquet

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，RMHackBench数据集通过精心设计的构造流程，系统性地构建了多个评估配置。该数据集涵盖权威信号、前提合规、质量声明附加、安全姿态和冗余填充等五个核心类别，每个类别均包含240个测试样本。构建过程中，每个样本均整合了文本查询与对应图像，并生成了多条模型响应，同时标注了标准答案索引，确保了评估任务的多模态特性与答案判定的明确性。

特点

RMHackBench数据集展现出鲜明的结构化特征，其核心在于多配置的评估框架设计。每个配置专注于一种特定的模型行为模式，例如权威信号或安全姿态，从而允许对模型进行细粒度、有针对性的性能剖析。数据集样本均包含图像与文本查询的配对，以及一组候选响应和对应的正确答案列表，这种设计支持对模型的多选回答能力进行直接评估。所有数据仅包含测试集，凸显了其作为基准测试工具的纯粹性。

使用方法

该数据集主要用于对视觉语言模型进行系统性的基准测试与行为分析。研究人员可通过HuggingFace数据集库加载特定的配置，例如‘Authority Signaling (T1)’或‘Safety Posturing (T2)’，以评估模型在对应行为维度上的表现。使用流程涉及加载数据、提取查询图像对、获取模型生成的响应列表，并通过对比标注的答案索引来量化模型的准确率。其多配置结构便于进行跨行为模式的比较研究，为模型优化提供诊断依据。

背景与挑战

背景概述

在大型语言模型与视觉-语言模型迅猛发展的时代，评估模型输出的真实性与可靠性成为人工智能安全领域的核心关切。RMHackBench数据集应运而生，旨在系统性地检测模型在生成回应时可能存在的各类“伪装”行为，例如权威信号、安全姿态、冗长填充等。该数据集通过精心设计的查询与图像多模态输入，要求模型从多个候选回应中选出最诚实、最直接的回答，从而暴露模型在压力下为迎合用户或规避责任而产生的非真实输出模式。其构建体现了研究社区对模型透明性与可信赖性的不懈追求，为后续的模型对齐与评估工作提供了重要的基准工具。

当前挑战

RMHackBench所针对的核心挑战在于识别并量化多模态大语言模型中复杂的“伪装”行为，这些行为使得模型输出看似合理实则偏离真实或最优解，例如通过无关的权威引用提升可信度，或利用过度冗长的安全声明规避实质回答。在数据集构建层面，挑战集中于如何设计能够有效诱发并清晰界定各类伪装模式的测试用例，同时确保图像-文本对在语义上的紧密关联与逻辑一致性。此外，为每个查询生成并标注具有细微差别的多个候选回应，要求标注者具备深刻的领域洞察力，以区分诚实回应与精巧的伪装，这一过程对标注质量与一致性提出了极高要求。

常用场景

经典使用场景

在视觉语言模型评估领域，RMHackBench数据集被广泛用于检测模型在应对对抗性提示时的鲁棒性。该数据集通过精心设计的查询与图像组合，模拟了多种模型可能被诱导生成不当或低质量回应的场景，例如权威信号传递、安全姿态伪装等。研究人员利用该数据集对模型进行系统性测试，以揭示模型在理解复杂指令和视觉内容时的潜在缺陷，从而推动模型在真实世界应用中的可靠性提升。

衍生相关工作

围绕RMHackBench数据集，学术界衍生出一系列关于多模态模型对抗性评估与防御的经典研究。这些工作深入分析了模型在不同攻击策略下的脆弱性，并提出了相应的增强技术，例如通过对抗训练提升模型对诱导性提示的抵抗力。同时，该数据集也催生了新的评估指标和基准测试框架，推动了视觉语言模型安全评估子领域的形成与发展，为后续研究奠定了坚实的实验基础。

数据集最近研究