CUARewardBench
收藏arXiv2025-10-21 更新2025-10-24 收录
下载链接:
https://ed_trajs
下载链接
链接失效反馈官方服务:
资源简介:
CUARewardBench 是一个用于评估计算机使用代理(CUA)奖励模型的新基准,包含来自 10 个软件类别和 7 种代理架构的轨迹,具有不同的性能水平。所有轨迹都经过专家精心设计的协议进行标注,并通过严格的质量控制确保可靠性和实际适用性。该数据集旨在解决现有奖励模型在视觉推理能力、知识不足和通用 VLM 与专用 CUA 模型之间的优劣比较等问题。
CUARewardBench is a novel benchmark for evaluating Computer Use Agent (CUA) reward models. It encompasses trajectories across 10 software categories and 7 agent architectures, spanning diverse performance levels. All trajectories are annotated following expert-curated protocols, and their reliability and practical applicability are ensured through strict quality control measures. This benchmark aims to resolve critical issues plaguing current reward models, including inadequate visual reasoning capabilities, insufficient domain knowledge, and the lack of rigorous comparative analysis between general-purpose VLMs and specialized CUA models.
提供机构:
腾讯优图实验室
创建时间:
2025-10-21
搜集汇总
数据集介绍
构建方式
在计算机使用智能体评估领域,传统基于脚本的验证方法面临扩展性不足与细粒度评估缺失的挑战。CUARewardBench通过系统化轨迹收集与专家标注构建而成:首先基于OSWorld基准选取涵盖10类桌面软件的多样化任务,采用7种不同架构的智能体模型生成性能跨度25.9%-50.8%的执行轨迹;通过严格的质量控制流程,由专业标注者依据指令一致性与副作用规避准则进行轨迹成功判定,并聚焦关键动作标注——识别显著推进任务的非显性操作与严重阻碍任务的 deceptive行为,最终形成包含272条轨迹级标注与346条步骤级标注的高质量数据集。
特点
该数据集在计算机使用智能体评估领域展现出多维度的显著特性。其生态效度体现在全面覆盖Chrome、VS Code等10类常见软件的操作场景,真实反映实际部署环境;架构多样性通过集成单模型与框架型等7类智能体的决策模式,确保评估的广泛代表性。标注体系创新性地解耦轨迹成功与步骤正确性的正交维度,在成功轨迹中标注错误动作、在失败轨迹中标注正确动作,为奖励模型提供细粒度监督信号。质量可靠性通过多阶段人工验证与协议设计,有效捕获现实场景中的关键决策点与典型失败模式,为奖励模型评估奠定坚实基础。
使用方法
该数据集为计算机使用智能体奖励模型的系统评估提供标准化框架。研究者可利用其双粒度标注体系分别验证结果奖励模型与过程奖励模型的性能:轨迹级标注支持模型对任务完成度的整体判断能力测试,步骤级标注则用于评估模型对单步决策贡献度的判别精度。评估时需综合考量精度与负预测值等关键指标,前者反映成功轨迹识别的可靠性,后者关乎失败轨迹判别的准确性。实验设计应涵盖不同视觉语言模型与提示模板的组合,通过控制软件类别与智能体架构变量,深入分析模型在视觉推理、动作理解等维度的能力边界,为奖励模型的优化方向提供实证依据。
背景与挑战
背景概述
CUARewardBench由腾讯优图实验室于2025年10月发布,是首个专注于计算机使用智能体奖励模型评估的综合性基准。该数据集构建于OSWorld环境之上,涵盖10类桌面软件的操作轨迹,包含272条轨迹级标注和346条步骤级标注。研究团队通过整合7种不同架构的智能体策略模型,实现了对轨迹成功率和步骤正确性的多粒度评估,为强化学习训练中的奖励信号提供标准化验证框架,显著推动了具身智能在真实计算环境中的发展进程。
当前挑战
该数据集致力于解决计算机使用智能体在轨迹级与步骤级评估中的可靠性验证问题,其核心挑战在于视觉语言模型对界面元素的误判(30.2%)和逻辑推理错误(35.8%)。数据构建过程中面临轨迹标注的复杂性,需通过专家标注协议平衡操作冗余性与关键动作识别,同时需克服不同软件界面的视觉差异性和长轨迹序列的标注一致性维护等难题。
常用场景
经典使用场景
在计算机使用智能体研究领域,CUARewardBench作为首个专门评估奖励模型的基准,为系统化验证轨迹级和步骤级评估提供了标准化测试平台。该数据集通过整合10类软件应用和7种不同架构的智能体轨迹,构建了涵盖多样化交互场景的评估环境,使得研究人员能够全面分析奖励模型在真实桌面操作环境中的表现。其精心设计的轨迹选择标准和关键步骤标注机制,为探索计算机使用智能体的决策过程提供了可靠的数据支撑。
衍生相关工作
该数据集的推出催生了一系列重要的衍生研究,其中最具代表性的是基于其分析洞察提出的统一提示集成方法。该方法通过严格的全体一致投票机制和策略性提示模板配置,显著提升了奖励模型的可靠性,在结果奖励模型评估中达到89.8%的精确度和93.3%的负预测值。此外,数据集揭示的视觉推理能力主导性规律推动了通用视觉语言模型在计算机使用智能体评估中的优先应用,引导后续研究关注模型基础能力建设而非过度专业化训练。
数据集最近研究
最新研究方向
随着计算机使用代理(CUA)在操作系统和软件界面交互中的广泛应用,其评估方法正从传统脚本验证转向基于视觉语言模型(VLM)的奖励模型。CUARewardBench作为首个综合性CUA奖励基准,聚焦于轨迹级和步骤级评估的前沿探索,揭示了当前模型在视觉推理能力、知识完整性及泛化性能方面的核心挑战。研究热点集中于异构提示集成策略与严格共识投票机制的结合,通过 unanimous prompt ensemble(UPE)方法显著提升奖励可靠性,为离线轨迹筛选和在线强化学习训练提供了可部署解决方案。这一进展不仅推动了CUA评估范式的标准化,也为多模态智能体在复杂环境中的决策优化奠定了理论基石。
相关研究论文
- 1CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent腾讯优图实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



