CUAVerifierBench

Name: CUAVerifierBench
Creator: Microsoft
Published: 2026-04-22 03:30:05
License: 暂无描述

Hugging Face2026-04-22 更新2026-04-23 收录

下载链接：

https://huggingface.co/datasets/microsoft/CUAVerifierBench

下载链接

链接失效反馈

官方服务：

资源简介：

CUAVerifierBench是一个用于评估计算机使用代理（CUA）验证器的基准数据集。该数据集旨在衡量验证器的准确性，而非直接评估代理本身。数据集包含Fara-7B代理在Online-Mind2Web任务上的轨迹（包括截图、动作和最终答案）以及人类评审员的判决。此外，数据集还包含了Universal Verifier (MMRubricAgent)和几个旧版验证器的判决结果。数据集分为trajectories和annotations两个配置，分别存储任务轨迹和人类评审员的标注信息。数据集的两个分割（fara7b_om2w_browserbase和internal）分别包含106和154个任务轨迹。数据集适用于计算验证器与人类判决之间的一致性、研究评审员之间的分歧以及开发新的验证器提示或架构。

CUAVerifierBench is a benchmark dataset for evaluating Computer-Using Agent (CUA) verifiers. The dataset aims to measure the accuracy of verifiers that assess agent performance, rather than directly evaluating the agents themselves. The dataset contains trajectories (including screenshots, actions, and final answers) from the Fara-7B agent on the Online-Mind2Web task, along with judgments from human reviewers. Additionally, the dataset includes judgments from the Universal Verifier (MMRubricAgent) and several legacy verifiers. The dataset is divided into two configurations: trajectories and annotations, which store task trajectories and human reviewer annotations, respectively. The two splits of the dataset (fara7b_om2w_browserbase and internal) contain 106 and 154 task trajectories, respectively. The dataset is suitable for calculating agreement between verifiers and human judgments (e.g., Cohens κ, accuracy, F1 score), studying disagreements among reviewers, and investigating the impact of verifier outputs on reviewer judgments, as well as developing new verifier prompts or architectures.

提供机构：

Microsoft

创建时间：

2026-04-19

原始信息汇总

CUAVerifierBench 数据集概述

基本信息

数据集名称：CUAVerifierBench
创建机构：Microsoft Research AI Frontiers
许可证：MIT License
语言：英文
任务类型：图像-文本到文本（image-text-to-text）
数据规模：少于1000条（n<1K）
标签：CUA、Agent评估、验证器、arXiv:2604.06240

数据集简介

CUAVerifierBench是一个人工标注的基准测试集，用于评估计算机使用代理（CUA）的验证器。与衡量代理能力的基准（如WebTailBench）不同，CUAVerifierBench专注于衡量对代理进行评分的评判者。每条数据记录包含一个Fara-7B代理的执行轨迹、一名人类评审者的判断，以及通用验证器（Universal Verifier）和多个旧版验证器的输出。

数据集用途

研究者可以利用该数据集：

在固定轨迹语料库上计算验证器与人类的一致性（Cohens κ、准确率、F1值）
研究评判者之间的分歧，以及当评审者看到验证器输出时（"UV-informed"阶段）分歧如何变化
基于固定的真实标注集迭代新的验证器提示/架构

数据集结构

数据集包含两个配置，可通过task_id进行连接：

配置	粒度	内容
`trajectories`	每个任务一行	代理运行记录——指令、截图、web_surfer日志、最终答案、所有验证器输出及任务级人类聚合结果
`annotations`	每个（任务，评审者）一行	一位评审者的自由文本和结构化人工判断

数据分割

两个配置均包含相同的两个分割：

分割	来源	轨迹数	标注行数	标注阶段
`fara7b_om2w_browserbase`	Fara-7B在Online-Mind2Web任务上通过Browserbase远程浏览器执行的轨迹	106	215（约2位评审者/任务）	UV-blind（盲审）和 UV-informed（知情）
`internal`	Microsoft内部任务套件——使用相同WebSurfer+验证器堆栈评估的预留任务	154	154（1位评审者/任务）	仅UV-blind

字段详解

`trajectories` 配置字段

字段	类型	描述
`task_id`	string	主键。Online-Mind2Web任务标识符
`instruction`	string	给代理的自然语言任务
`init_url`	string	起始URL
`start_timestamp`, `end_timestamp`	string	运行的起止时间
`final_answer`	string	代理提交的最终答案（若未调用终止则为`<no_answer>`）
`is_aborted`	bool	运行是否在完成前被中止
`web_surfer_log`	string	`web_surfer.log`中的完整JSONL动作/观察日志
`screenshots`	sequence of Image	按时间顺序的内联PNG截图，自动解码为PIL图像
`n_screenshots`	int32	`screenshots`列表长度
`gpt_eval_json`	string	原始Online-Mind2Web GPT评判结果的JSON
`uv_rubric_score`	float32	通用验证器（当前）评分，范围[0,1]
`uv_outcome_success`	int32	通用验证器（当前）二分类结果判断
`mm_is_success`	int32	已弃用——原始WebTailBench多模态基础验证器的判断
`verifier_is_success`	int32	已弃用——原始WebTailBench纯文本任务验证器的判断
`final_human_outcome_label`	int32	所有评审者对任务的最终裁定结果标签
`final_human_process_label`	int32	所有评审者对任务的最终裁定过程标签
`median_human_rubric_score_agnostic`	float32	评审者UV-blind过程评分的中位数
`majority_human_outcome_vote`	int32	UV-blind结果标签的多数投票

关于旧版验证器：mm_is_success和verifier_is_success来自Fara-7B技术报告中使用的原始WebTailBench验证器套件。该套件已被弃用，由通用验证器（MMRubricAgent）替代。新研究应使用uv_rubric_score和uv_outcome_success。

`annotations` 配置字段

字段	类型	描述
`task_id`	string	外键，指向`trajectories.task_id`
`annotator`	string	匿名评审者（`Judge1`至`Judge6`）
`human_judgement_outcome`	string	UV-blind结果标签
`human_judgement_process`	string	UV-blind过程标签
`human_process_score`	float32	UV-blind连续过程评分，范围[0,1]
`outcome_comment`	string	UV-blind结果标签的自由文本理由
`process_comment`	string	UV-blind过程标签的自由文本理由
`informed_outcome_agreement`	string	UV-informed：与通用验证器结果判断的一致性
`informed_process_agreement`	string	UV-informed：与通用验证器过程判断的一致性
`informed_outcome_comment`	string	UV-informed自由文本理由
`informed_process_comment`	string	UV-informed自由文本理由

标注过程

评审者分两个阶段对每条轨迹进行标注：

UV-blind（盲审阶段）：评审者阅读指令和轨迹，在未看到任何验证器输出的情况下分配结果/过程标签和连续过程评分
UV-informed（知情阶段）：向评审者展示通用验证器的判断，询问是否同意，并记录自由文本理由

评审者身份匿名化为Judge1至Judge6，所有分割使用同一映射。

数据创建

轨迹来源：使用Fara-7B在公开的Online-Mind2Web任务集上运行，任务在Browserbase托管的Chromium实例中执行
验证器输出：为每条轨迹提供了通用验证器的判断结果以及两个旧版验证器的输出

使用注意事项

预期用途

评估CUA验证器与人类判断的一致性
研究标注者间一致性以及向人类展示模型判断的影响
开发用于轨迹评估的新评判者提示/架构

局限性

仅106个任务的语料库相对较小，结果应附带置信区间
所有轨迹来自单一代理（Fara-7B），其他代理轨迹上的验证器行为可能不同
任务继承Online-Mind2Web的时间有效性和领域偏差

引用信息

bibtex @article{UniversalVerifier2026, title={The Art of Building Verifiers for Computer Use Agents}, journal={arXiv preprint arXiv:2604.06240}, year={2026}, url={https://arxiv.org/abs/2604.06240v1} }

搜集汇总

数据集介绍

构建方式

在计算机使用代理评估领域，构建高质量验证基准是推动算法进步的关键。CUAVerifierBench的构建始于从公开的Online-Mind2Web任务集中，通过Fara-7B代理在Browserbase托管的浏览器环境中执行任务，生成包含屏幕截图、操作日志和最终答案的完整轨迹。随后，每个任务由约两名独立评审员进行两阶段标注：第一阶段评审员在未知验证器输出的情况下，对轨迹的结果和过程进行标签与评分；第二阶段评审员在查看通用验证器裁决后，再次评估其同意程度并给出文本解释。所有评审员身份均被匿名化处理，最终数据集整合了人类标注、通用验证器及历史验证器的裁决，形成可连接的任务轨迹与标注两个配置模块。

特点

该数据集的核心特征体现在其精心设计的双配置结构与多层次标注体系。轨迹配置模块以任务为单位，完整封装了代理执行的指令、屏幕截图序列、网络浏览日志及多种验证器的输出结果，特别是包含了通用验证器的连续评分与二元裁决。标注配置模块则以评审员为粒度，细致记录了人类在盲审与知情两阶段下的分类标签、连续分数及自由文本理由，清晰揭示了人类判断与模型裁决之间的互动关系。数据集通过任务标识符实现两个模块的自然连接，既避免了数据的冗余存储，又支持从个体评审到任务聚合的多维度分析，为研究验证器与人类评估的一致性提供了结构化基础。

使用方法

研究人员可通过HuggingFace的datasets库分别加载轨迹与标注两个配置模块，并依据任务标识符进行关联，以开展深入的验证器评估研究。典型应用包括计算验证器裁决与人类标注之间的一致性指标，如科恩卡帕系数、准确率与F1分数，从而量化验证器的性能。此外，数据集支持探究评审员间的分歧模式，以及分析当评审员知晓验证器输出后其判断是否发生变化，这有助于理解模型输出对人类评估的潜在影响。开发者亦可基于此固定的人类标注基准，迭代新的验证器提示词或架构设计，推动计算机使用代理评估技术的持续演进。

背景与挑战

背景概述

在人工智能代理（Agent）研究领域，准确评估代理在复杂环境（如网络浏览）中的任务执行能力至关重要。CUAVerifierBench数据集由微软研究院于2026年创建，旨在为计算机使用代理（CUA）的验证器（Verifier）提供一个标准化评估基准。该数据集的核心研究问题聚焦于如何客观、可靠地评判代理轨迹（包括屏幕截图、操作序列和最终答案）的任务完成质量，从而推动验证器模型的发展，弥补以往基准（如WebTailBench）仅评估代理本身性能的不足。通过集成Fara-7B代理在Online-Mind2Web任务上生成的轨迹与多阶段人工标注，该数据集为验证器与人类判断的一致性分析提供了坚实基础，对提升自主代理的可靠性与可解释性具有重要影响力。

当前挑战

CUAVerifierBench所针对的领域挑战在于，对计算机使用代理的轨迹进行自动化验证本身极具复杂性。这要求验证器不仅能理解多模态信息（如图像与文本），还需推理代理的操作逻辑与任务目标之间的语义关联，同时处理动态环境中的不确定性。在数据集构建过程中，研究人员面临多重挑战：首先，采集高质量、多样化的代理轨迹依赖于特定环境（如Browserbase远程浏览器）的稳定执行，且需确保轨迹覆盖真实网络任务的复杂性；其次，设计严谨的人工标注协议尤为关键，包括双阶段（UV-blind与UV-informed）标注以消除偏差，并维护标注者匿名性与一致性；此外，数据规模相对有限（仅260条轨迹），可能影响统计结论的泛化能力，而轨迹来源单一（仅Fara-7B代理）也限制了验证器在其他代理场景下的适用性评估。

常用场景

经典使用场景

在计算机使用代理（CUA）评估领域，CUAVerifierBench作为验证器性能的基准测试工具，其经典应用场景集中于系统化评估轨迹验证器的判别能力。研究者利用该数据集，通过对比人类标注者与自动化验证器（如通用验证器MMRubricAgent）对同一代理轨迹的判定结果，计算科恩卡帕系数、准确率等指标，从而量化验证器与人类判断的一致性。这种评估不仅限于静态性能比较，还支持分析验证器输出对人工判读的影响，为验证器的迭代优化提供实证基础。

衍生相关工作

围绕CUAVerifierBench，学术界衍生出一系列聚焦于验证器架构创新的研究。例如，部分工作基于其标注数据训练轻量级神经网络验证器，以替代耗能的通用模型；另有研究利用数据集中“盲注”与“信息注入”双阶段标注，深入分析人类判断受模型输出影响的认知偏差。这些工作不仅扩展了验证器设计的技术边界，还促进了人机协同评估范式的理论探索，形成了从基准构建到方法改进的完整研究脉络。

数据集最近研究