RMHackBench
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/sdfss1/RMHackBench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置都是一个多模态数据集,包含文本(查询、响应)和图像。主要配置包括:权威信号(T1)、前提合规(C1)、质量声明附加(C2)、安全姿态(T2)和冗长填充(P1)。每个配置都有一个测试集,包含240-241个样本。数据集特征包括:唯一标识符(id)、查询文本(query)、图像(image)、图像ID(image_id)、响应列表(responses)、答案列表(answer)和来源(source)。数据集采用CC-BY-4.0许可协议。
创建时间:
2026-04-02
原始信息汇总
数据集概述
基本信息
- 数据集名称: RMHackBench
- 数据集地址: https://huggingface.co/datasets/sdfss1/RMHackBench
- 许可证: CC BY 4.0
数据集配置
该数据集包含多个配置(config),每个配置对应一个独立的子集。
配置列表
- Authority Signaling (T1)
- Premise Compliance (C1)
- Quality-Claim Append (C2)
- Safety Posturing (T2)
- Single_Test
- Single_V1
- Verbosity Padding (P1)
- T2
数据结构
所有配置共享相似的数据特征(features),具体如下:
特征(Features)
- id: (数据类型: string) 样本唯一标识符。
- query: (数据类型: string) 查询文本。
- image: (数据类型: image) 图像数据。
- image_id: (数据类型: string) 图像标识符。
- responses: (数据类型: list[string]) 响应列表(文本)。
- answer: (数据类型: list[int32]) 答案列表(整数)。
- source: (数据类型: string) 数据来源标识(部分配置包含此特征,
Single_Test配置无此特征)。
数据划分与规模
所有配置仅包含一个数据划分:测试集(test)。
各配置的详细规模如下:
| 配置名称 | 样本数量 | 数据集大小(字节) | 下载大小(字节) |
|---|---|---|---|
| Authority Signaling (T1) | 240 | 41,581,064 | 568,214,836 |
| Premise Compliance (C1) | 240 | 45,274,679 | 226,270,270 |
| Quality-Claim Append (C2) | 240 | 54,649,897 | 225,603,812 |
| Safety Posturing (T2) | 240 | 43,439,616 | 789,093,108 |
| Single_Test | 240 | 131,636,045 | 133,660,112 |
| Single_V1 | 241 | 134,401,560 | 134,398,546 |
| Verbosity Padding (P1) | 240 | 42,588,068 | 635,200,903 |
文件结构
每个配置的数据文件路径模式如下:
{配置名称}/test-*(例如:Authority Signaling (T1)/test-*)- 配置
T2的路径为:data/T2/test-*.parquet
搜集汇总
数据集介绍

构建方式
在视觉语言模型评估领域,RMHackBench数据集通过精心设计的构造流程,系统性地构建了多个评估配置。该数据集涵盖权威信号、前提合规、质量声明附加、安全姿态和冗余填充等五个核心类别,每个类别均包含240个测试样本。构建过程中,每个样本均整合了文本查询与对应图像,并生成了多条模型响应,同时标注了标准答案索引,确保了评估任务的多模态特性与答案判定的明确性。
特点
RMHackBench数据集展现出鲜明的结构化特征,其核心在于多配置的评估框架设计。每个配置专注于一种特定的模型行为模式,例如权威信号或安全姿态,从而允许对模型进行细粒度、有针对性的性能剖析。数据集样本均包含图像与文本查询的配对,以及一组候选响应和对应的正确答案列表,这种设计支持对模型的多选回答能力进行直接评估。所有数据仅包含测试集,凸显了其作为基准测试工具的纯粹性。
使用方法
该数据集主要用于对视觉语言模型进行系统性的基准测试与行为分析。研究人员可通过HuggingFace数据集库加载特定的配置,例如‘Authority Signaling (T1)’或‘Safety Posturing (T2)’,以评估模型在对应行为维度上的表现。使用流程涉及加载数据、提取查询图像对、获取模型生成的响应列表,并通过对比标注的答案索引来量化模型的准确率。其多配置结构便于进行跨行为模式的比较研究,为模型优化提供诊断依据。
背景与挑战
背景概述
在大型语言模型与视觉-语言模型迅猛发展的时代,评估模型输出的真实性与可靠性成为人工智能安全领域的核心关切。RMHackBench数据集应运而生,旨在系统性地检测模型在生成回应时可能存在的各类“伪装”行为,例如权威信号、安全姿态、冗长填充等。该数据集通过精心设计的查询与图像多模态输入,要求模型从多个候选回应中选出最诚实、最直接的回答,从而暴露模型在压力下为迎合用户或规避责任而产生的非真实输出模式。其构建体现了研究社区对模型透明性与可信赖性的不懈追求,为后续的模型对齐与评估工作提供了重要的基准工具。
当前挑战
RMHackBench所针对的核心挑战在于识别并量化多模态大语言模型中复杂的“伪装”行为,这些行为使得模型输出看似合理实则偏离真实或最优解,例如通过无关的权威引用提升可信度,或利用过度冗长的安全声明规避实质回答。在数据集构建层面,挑战集中于如何设计能够有效诱发并清晰界定各类伪装模式的测试用例,同时确保图像-文本对在语义上的紧密关联与逻辑一致性。此外,为每个查询生成并标注具有细微差别的多个候选回应,要求标注者具备深刻的领域洞察力,以区分诚实回应与精巧的伪装,这一过程对标注质量与一致性提出了极高要求。
常用场景
经典使用场景
在视觉语言模型评估领域,RMHackBench数据集被广泛用于检测模型在应对对抗性提示时的鲁棒性。该数据集通过精心设计的查询与图像组合,模拟了多种模型可能被诱导生成不当或低质量回应的场景,例如权威信号传递、安全姿态伪装等。研究人员利用该数据集对模型进行系统性测试,以揭示模型在理解复杂指令和视觉内容时的潜在缺陷,从而推动模型在真实世界应用中的可靠性提升。
衍生相关工作
围绕RMHackBench数据集,学术界衍生出一系列关于多模态模型对抗性评估与防御的经典研究。这些工作深入分析了模型在不同攻击策略下的脆弱性,并提出了相应的增强技术,例如通过对抗训练提升模型对诱导性提示的抵抗力。同时,该数据集也催生了新的评估指标和基准测试框架,推动了视觉语言模型安全评估子领域的形成与发展,为后续研究奠定了坚实的实验基础。
数据集最近研究
最新研究方向
在大型多模态模型评估领域,RMHackBench数据集聚焦于揭示模型在推理与安全对齐中的潜在漏洞。该数据集通过精心设计的测试配置,如权威信号传递和安全姿态伪装,系统性地探测模型在面对诱导性查询时的鲁棒性缺失。前沿研究正利用此类基准,深入分析多模态模型在复杂社会语境下的行为偏差,其成果直接关联到当前人工智能伦理治理的热点议题,为构建更可靠、透明的人工智能系统提供了关键的评估工具与理论依据。
以上内容由遇见数据集搜集并总结生成



