Agent-RewardBench
收藏arXiv2025-06-26 更新2025-11-28 收录
下载链接:
https://hf-mirror.com/datasets/MultimodalAgent/Agent-RewardBench
下载链接
链接失效反馈官方服务:
资源简介:
Agent-RewardBench是一个用于评估多模态大型语言模型(MLLMs)在多模态智能体任务中的奖励建模能力的基准。该基准包含1,136个高质量样本,涵盖3个评估维度和7个现实世界智能体应用场景。数据集包括感知、规划和安全三个评估维度,涉及7种不同场景,包括移动、网络、桌面、自动驾驶、Minecraft、虚拟家和旅行规划。数据集通过两个阶段的过滤过程构建,包括使用小模型和人工标注者的过滤,以确保数据质量。
Agent-RewardBench is a benchmark for evaluating the reward modeling capabilities of multimodal large language models (MLLMs) in multimodal agent tasks. This benchmark contains 1,136 high-quality samples, covering 3 evaluation dimensions and 7 real-world agent application scenarios. The dataset includes three evaluation dimensions: perception, planning, and safety, involving 7 distinct scenarios including mobile, cybersecurity, desktop, autonomous driving, Minecraft, virtual home, and travel planning. The dataset is constructed through a two-stage filtering process that uses small models and human annotators for screening to ensure data quality.
提供机构:
中国科学院自动化研究所认知与决策智能实验室
创建时间:
2025-06-26
搜集汇总
数据集介绍

构建方式
Agent-RewardBench的构建始于对多个公开数据集的采样,涵盖感知、规划与安全三个维度,涉及移动端、网页、桌面、自动驾驶、Minecraft、虚拟家居及旅行规划等7种真实智能体场景。研究者从10种不同规模的黑盒与白盒多模态大模型中收集响应,随后采用两阶段筛选流程:首先利用三个小型模型对正负样本对进行难度控制,剔除过易或过难的样本,保留中等及困难程度的数据;最后通过三名人工智能专业研究生的人工审核,移除标注错误或质量低劣的样本,最终获得1,136个高质量对比样本。
特点
该基准独具三大特色:其一,实现多维度与多场景覆盖,从感知层面的视觉理解与定位、规划层面的序列决策与任务分解,到安全层面的攻击与危险环境识别,全面评估奖励模型能力。其二,支持步骤级奖励评估,对每个中间步骤分别收集正负样本,相较于仅评价最终结果,能够提供更细粒度的反馈度量。其三,具备适当的难度控制与高质量保障,通过多模型采样确保响应多样性,利用小型模型筛选维持任务挑战性,再经由人工校验确保数据完整性,使基准能够有效区分不同模型的奖励建模水平。
使用方法
使用时,对于每个测试样本,系统同时呈现一个智能体任务指令和两个候选响应,要求奖励模型从中选出更优者。为消除位置偏差,每个样本对会以正反两种顺序各评估一次,取平均作为最终得分。评估时需将模型温度设为0,以确保输出的一致性。该方法可广泛应用于多种场景:既可比较不同多模态大模型作为奖励模型的综合能力,也可单独分析其在感知、规划或安全等子维度上的表现。此外,该基准已通过实验验证与下游任务(如A*搜索的性能)存在高达0.981的皮尔逊相关系数,表明其评价结果可直接指导实际应用中的模型选型。
背景与挑战
背景概述
随着多模态大语言模型的飞速发展,多模态智能体在网页导航、具身智能等真实世界任务中展现出巨大潜力。然而,现有模型因缺乏有效的外部反馈机制,在自我纠错与泛化能力上存在显著不足,亟需引入奖励模型作为反馈信号以提升其性能。为此,中国科学院自动化研究所的研究团队于2025年提出了Agent-RewardBench。该基准测试由Tianyi Men、Zhuoran Jin等学者主导,旨在系统评估多模态大语言模型在智能体任务中的奖励建模能力,涵盖感知、规划与安全三大核心维度,并涉及移动端、网页端、桌面、自动驾驶、Minecraft、虚拟家居及旅行规划七种真实场景,为智能体从模仿学习迈向基于反馈的学习提供了关键评测工具。
当前挑战
Agent-RewardBench所面临的挑战主要体现在三个方面。首先,智能体任务本身具有高度复杂性,现有最强模型如Gemini-1.5-Pro的准确率也仅为61.6%,远未达到理想奖励模型的要求,这揭示了领域内普遍的性能瓶颈。其次,安全维度的奖励建模尤为薄弱,即使性能领先的模型在安全评测中得分也常常偏低,说明当前模型缺乏针对性的安全对齐训练。此外,在数据构建过程中,如何精准控制正负样本对的难度以避免天花板或地板效应,以及如何从多模型生成的海量响应中筛选出高质量、具区分度的样本,亦是构建过程中极具挑战性的难题。
常用场景
经典使用场景
在智能体任务中,评估多模态大语言模型的奖励建模能力是该数据集最经典的使用场景。通过覆盖感知、规划与安全三个核心维度,以及在移动端、网页端、桌面端、自动驾驶、Minecraft、虚拟家居和旅行规划等七个真实世界场景,研究人员能够系统性地衡量候选模型在视觉理解与定位、序列决策与任务拆解、以及对抗攻击与危险环境中的奖励分配质量。该数据集为从模仿学习向基于反馈的智能体训练范式过渡提供了关键的评估工具。
解决学术问题
Agent-RewardBench 解决了当前多模态智能体研究中缺乏统一奖励模型评估基准的难题。此前,学术社区对智能体奖励模型的选择缺乏明确依据,尤其在感知、规划与安全等多维度上的表现无法综合度量。该数据集通过步骤级的奖励评价设计,允许对规划过程中的每个中间步骤进行细致优劣判断,从而揭示了当前最强模型在安全奖励建模上的显著不足(如 GPT-4o 安全准确率仅为 39.2%),凸显了针对智能体奖励模型进行专门训练的必要性与紧迫性,推动了奖励学习在智能体领域的理论发展。
衍生相关工作
该数据集衍生了多个方向的经典工作,包括基于奖励引导的训练方法和搜索策略。其中,奖励引导训练方法通过模型与环境的反复试错在训练阶段优化智能体参数,而奖励引导搜索方法则在推理阶段利用奖励模型回溯并探索更优的轨迹路径。典型代表如针对 VisualWebArena 场景的 A* 树搜索算法,以及 PCA-Bench 和 TravelPlanner 等数据集中的多步规划评估方法。这些工作共同推动了从简单模仿学习向具有反馈能力的自主智能体的研究演进。
以上内容由遇见数据集搜集并总结生成



