HARDBench

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/hyeminboo/HARDBench

下载链接

链接失效反馈

官方服务：

资源简介：

HARDBench是一个用于训练和评估多模态工具使用代理拒绝校准的基准和训练数据集，旨在解决现有代理在面对证据不足问题时过度自信或产生幻觉回答的问题。该数据集通过系统构建的不可回答问题与真实、高复杂度视觉场景配对，不同于以往依赖人工操作图像或狭窄视觉领域的基准。HARDBench通过结构化三步流程修改真实问题的语义组件（对象、关系和属性）来生成不可回答性。数据集包含训练集（10,000个样本）、验证集（200个样本）、测试集（500个样本）、HARDBench-RealX（82个样本）和HARDBench-V*（382个样本），训练集中可回答与不可回答问题的比例为3:1。数据来源于多个公开数据集，包括PixMo Counting、TallyQA、ArxivQA等，涵盖多种许可证。数据集支持视觉问答和图像到文本任务，适用于多模态、拒绝、不可回答、视觉推理、工具使用和代理相关研究。

创建时间：

2026-04-07

搜集汇总

数据集介绍

构建方式

在视觉问答领域，构建能够有效评估模型拒绝能力的基准数据集至关重要。HARDBench的构建采用了一种系统化的三阶段流程，专注于对真实高复杂度视觉场景中的问题进行语义层面的修改。具体而言，该方法通过精心设计的对象、关系和属性（ORA）变换策略，将原始可回答问题转化为语义上不可回答的变体，同时保持视觉场景的真实性。数据来源于多个权威的视觉问答数据集，包括PixMo Counting、TallyQA、ArxivQA以及MM-adaptive-CoF RL，确保了数据内容的多样性与复杂性。在构建过程中，训练集严格维持了可回答问题与不可回答问题之间三比一的比例，为模型学习恰当的拒绝行为提供了平衡的训练信号。

使用方法

该数据集主要用于训练和评估多模态工具使用代理在视觉证据不足时进行恰当拒绝的能力。研究人员可以加载HuggingFace上提供的标准数据分割，利用训练集对模型进行微调，以学习区分可回答与不可回答的视觉问题。验证集可用于超参数调整与早期停止。评估阶段，应分别在标准的测试集、HARDBench-RealX和HARDBench-V*等子集上测试模型的拒绝校准性能，分析其在不同数据分布下的表现。使用前需注意，数据集中的图像需根据引用的源数据集链接单独下载，并遵守各自对应的许可协议。

背景与挑战

背景概述

HARDBench数据集诞生于多模态人工智能快速发展的时代背景下，旨在解决智能体在视觉问答任务中的拒绝校准问题。该数据集由相关研究团队在论文《Rotus: Calibrated Refusal Optimization for Multimodal Tool-Use Agents》中正式提出，其核心研究焦点在于评估和训练多模态工具使用智能体在面对视觉证据不足时的审慎应答能力。通过系统性地构建高分辨率、语义复杂的不可回答问题，HARDBench填补了现有基准测试在真实场景拒绝性能评估上的空白，对推动多模态智能体向更可靠、更安全的方向发展具有显著影响力。

当前挑战

HARDBench所针对的领域挑战在于，当前基于强化学习微调的多模态智能体常丧失对不可回答问题的拒绝能力，易产生过度自信或幻觉式回答，这在实际应用中可能导致严重错误。在数据集构建过程中，研究团队面临的主要挑战包括：如何在不依赖人工合成图像的前提下，通过结构化流程对真实问题的对象、关系和属性进行语义修改，以生成高质量的不可回答样本；同时，需确保训练集中可回答与不可回答问题保持特定比例，并在测试集中实现均衡分布，以精确评估模型的拒绝校准性能。

常用场景

经典使用场景

在视觉问答与多模态智能体研究领域，HARDBench数据集被广泛用于训练和评估模型在复杂视觉场景下的拒绝校准能力。该数据集通过系统性地修改真实高分辨率图像中的语义成分，生成大量不可回答的问题，从而模拟现实世界中视觉证据不足的情境。研究者利用其精心构建的训练与测试划分，能够深入探究多模态工具使用代理在面对信息缺失时，如何避免产生过度自信或幻觉性回答，进而提升模型的可靠性与安全性。

解决学术问题

HARDBench数据集主要解决了多模态强化学习微调代理中普遍存在的拒绝能力退化问题。传统方法往往在优化回答准确性的同时，削弱了模型对不可回答问题的识别与回避，导致模型在视觉证据不足时仍生成错误内容。该数据集通过引入基于对象、关系和属性的结构化语义修改，为学术研究提供了系统评估拒绝校准的基准，推动了多模态智能体在不确定性处理与可信人工智能方向的理论进展，具有重要的方法论意义。

实际应用

在实际应用层面，HARDBench数据集为开发高可靠性的视觉辅助系统与自动化代理提供了关键训练资源。例如，在医疗影像分析、自动驾驶环境感知或工业质检等高风险领域，模型需要准确判断视觉信息的充分性，并在证据不足时主动拒绝回答，以避免决策失误。该数据集通过模拟真实场景中的不可回答问题，助力构建能够安全部署的多模态人工智能系统，增强其在复杂现实任务中的实用性与鲁棒性。

数据集最近研究