five

CUAVerifierBench

收藏
Hugging Face2026-04-22 更新2026-04-23 收录
下载链接:
https://huggingface.co/datasets/microsoft/CUAVerifierBench
下载链接
链接失效反馈
官方服务:
资源简介:
CUAVerifierBench是一个用于评估计算机使用代理(CUA)验证器的基准数据集。该数据集旨在衡量验证器的准确性,而非直接评估代理本身。数据集包含Fara-7B代理在Online-Mind2Web任务上的轨迹(包括截图、动作和最终答案)以及人类评审员的判决。此外,数据集还包含了Universal Verifier (MMRubricAgent)和几个旧版验证器的判决结果。数据集分为trajectories和annotations两个配置,分别存储任务轨迹和人类评审员的标注信息。数据集的两个分割(fara7b_om2w_browserbase和internal)分别包含106和154个任务轨迹。数据集适用于计算验证器与人类判决之间的一致性、研究评审员之间的分歧以及开发新的验证器提示或架构。

CUAVerifierBench is a benchmark dataset for evaluating Computer-Using Agent (CUA) verifiers. The dataset aims to measure the accuracy of verifiers that assess agent performance, rather than directly evaluating the agents themselves. The dataset contains trajectories (including screenshots, actions, and final answers) from the Fara-7B agent on the Online-Mind2Web task, along with judgments from human reviewers. Additionally, the dataset includes judgments from the Universal Verifier (MMRubricAgent) and several legacy verifiers. The dataset is divided into two configurations: trajectories and annotations, which store task trajectories and human reviewer annotations, respectively. The two splits of the dataset (fara7b_om2w_browserbase and internal) contain 106 and 154 task trajectories, respectively. The dataset is suitable for calculating agreement between verifiers and human judgments (e.g., Cohens κ, accuracy, F1 score), studying disagreements among reviewers, and investigating the impact of verifier outputs on reviewer judgments, as well as developing new verifier prompts or architectures.
提供机构:
Microsoft
创建时间:
2026-04-19
原始信息汇总

CUAVerifierBench 数据集概述

基本信息

  • 数据集名称:CUAVerifierBench
  • 创建机构:Microsoft Research AI Frontiers
  • 许可证:MIT License
  • 语言:英文
  • 任务类型:图像-文本到文本(image-text-to-text)
  • 数据规模:少于1000条(n<1K)
  • 标签:CUA、Agent评估、验证器、arXiv:2604.06240

数据集简介

CUAVerifierBench是一个人工标注的基准测试集,用于评估计算机使用代理(CUA)的验证器。与衡量代理能力的基准(如WebTailBench)不同,CUAVerifierBench专注于衡量对代理进行评分的评判者。每条数据记录包含一个Fara-7B代理的执行轨迹、一名人类评审者的判断,以及通用验证器(Universal Verifier)和多个旧版验证器的输出。

数据集用途

研究者可以利用该数据集:

  • 在固定轨迹语料库上计算验证器与人类的一致性(Cohens κ、准确率、F1值)
  • 研究评判者之间的分歧,以及当评审者看到验证器输出时("UV-informed"阶段)分歧如何变化
  • 基于固定的真实标注集迭代新的验证器提示/架构

数据集结构

数据集包含两个配置,可通过task_id进行连接:

配置 粒度 内容
trajectories 每个任务一行 代理运行记录——指令、截图、web_surfer日志、最终答案、所有验证器输出及任务级人类聚合结果
annotations 每个(任务,评审者)一行 一位评审者的自由文本和结构化人工判断

数据分割

两个配置均包含相同的两个分割:

分割 来源 轨迹数 标注行数 标注阶段
fara7b_om2w_browserbase Fara-7B在Online-Mind2Web任务上通过Browserbase远程浏览器执行的轨迹 106 215(约2位评审者/任务) UV-blind(盲审) UV-informed(知情)
internal Microsoft内部任务套件——使用相同WebSurfer+验证器堆栈评估的预留任务 154 154(1位评审者/任务) 仅UV-blind

字段详解

trajectories 配置字段

字段 类型 描述
task_id string 主键。Online-Mind2Web任务标识符
instruction string 给代理的自然语言任务
init_url string 起始URL
start_timestamp, end_timestamp string 运行的起止时间
final_answer string 代理提交的最终答案(若未调用终止则为<no_answer>
is_aborted bool 运行是否在完成前被中止
web_surfer_log string web_surfer.log中的完整JSONL动作/观察日志
screenshots sequence of Image 按时间顺序的内联PNG截图,自动解码为PIL图像
n_screenshots int32 screenshots列表长度
gpt_eval_json string 原始Online-Mind2Web GPT评判结果的JSON
uv_rubric_score float32 通用验证器(当前) 评分,范围[0,1]
uv_outcome_success int32 通用验证器(当前) 二分类结果判断
mm_is_success int32 已弃用——原始WebTailBench多模态基础验证器的判断
verifier_is_success int32 已弃用——原始WebTailBench纯文本任务验证器的判断
final_human_outcome_label int32 所有评审者对任务的最终裁定结果标签
final_human_process_label int32 所有评审者对任务的最终裁定过程标签
median_human_rubric_score_agnostic float32 评审者UV-blind过程评分的中位数
majority_human_outcome_vote int32 UV-blind结果标签的多数投票

关于旧版验证器mm_is_successverifier_is_success来自Fara-7B技术报告中使用的原始WebTailBench验证器套件。该套件已被弃用,由通用验证器(MMRubricAgent)替代。新研究应使用uv_rubric_scoreuv_outcome_success

annotations 配置字段

字段 类型 描述
task_id string 外键,指向trajectories.task_id
annotator string 匿名评审者(Judge1Judge6
human_judgement_outcome string UV-blind结果标签
human_judgement_process string UV-blind过程标签
human_process_score float32 UV-blind连续过程评分,范围[0,1]
outcome_comment string UV-blind结果标签的自由文本理由
process_comment string UV-blind过程标签的自由文本理由
informed_outcome_agreement string UV-informed:与通用验证器结果判断的一致性
informed_process_agreement string UV-informed:与通用验证器过程判断的一致性
informed_outcome_comment string UV-informed自由文本理由
informed_process_comment string UV-informed自由文本理由

标注过程

评审者分两个阶段对每条轨迹进行标注:

  1. UV-blind(盲审阶段):评审者阅读指令和轨迹,在未看到任何验证器输出的情况下分配结果/过程标签和连续过程评分
  2. UV-informed(知情阶段):向评审者展示通用验证器的判断,询问是否同意,并记录自由文本理由

评审者身份匿名化为Judge1Judge6,所有分割使用同一映射。

数据创建

  • 轨迹来源:使用Fara-7B在公开的Online-Mind2Web任务集上运行,任务在Browserbase托管的Chromium实例中执行
  • 验证器输出:为每条轨迹提供了通用验证器的判断结果以及两个旧版验证器的输出

使用注意事项

预期用途

  • 评估CUA验证器与人类判断的一致性
  • 研究标注者间一致性以及向人类展示模型判断的影响
  • 开发用于轨迹评估的新评判者提示/架构

局限性

  • 仅106个任务的语料库相对较小,结果应附带置信区间
  • 所有轨迹来自单一代理(Fara-7B),其他代理轨迹上的验证器行为可能不同
  • 任务继承Online-Mind2Web的时间有效性和领域偏差

引用信息

bibtex @article{UniversalVerifier2026, title={The Art of Building Verifiers for Computer Use Agents}, journal={arXiv preprint arXiv:2604.06240}, year={2026}, url={https://arxiv.org/abs/2604.06240v1} }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机使用代理评估领域,构建高质量验证基准是推动算法进步的关键。CUAVerifierBench的构建始于从公开的Online-Mind2Web任务集中,通过Fara-7B代理在Browserbase托管的浏览器环境中执行任务,生成包含屏幕截图、操作日志和最终答案的完整轨迹。随后,每个任务由约两名独立评审员进行两阶段标注:第一阶段评审员在未知验证器输出的情况下,对轨迹的结果和过程进行标签与评分;第二阶段评审员在查看通用验证器裁决后,再次评估其同意程度并给出文本解释。所有评审员身份均被匿名化处理,最终数据集整合了人类标注、通用验证器及历史验证器的裁决,形成可连接的任务轨迹与标注两个配置模块。
特点
该数据集的核心特征体现在其精心设计的双配置结构与多层次标注体系。轨迹配置模块以任务为单位,完整封装了代理执行的指令、屏幕截图序列、网络浏览日志及多种验证器的输出结果,特别是包含了通用验证器的连续评分与二元裁决。标注配置模块则以评审员为粒度,细致记录了人类在盲审与知情两阶段下的分类标签、连续分数及自由文本理由,清晰揭示了人类判断与模型裁决之间的互动关系。数据集通过任务标识符实现两个模块的自然连接,既避免了数据的冗余存储,又支持从个体评审到任务聚合的多维度分析,为研究验证器与人类评估的一致性提供了结构化基础。
使用方法
研究人员可通过HuggingFace的datasets库分别加载轨迹与标注两个配置模块,并依据任务标识符进行关联,以开展深入的验证器评估研究。典型应用包括计算验证器裁决与人类标注之间的一致性指标,如科恩卡帕系数、准确率与F1分数,从而量化验证器的性能。此外,数据集支持探究评审员间的分歧模式,以及分析当评审员知晓验证器输出后其判断是否发生变化,这有助于理解模型输出对人类评估的潜在影响。开发者亦可基于此固定的人类标注基准,迭代新的验证器提示词或架构设计,推动计算机使用代理评估技术的持续演进。
背景与挑战
背景概述
在人工智能代理(Agent)研究领域,准确评估代理在复杂环境(如网络浏览)中的任务执行能力至关重要。CUAVerifierBench数据集由微软研究院于2026年创建,旨在为计算机使用代理(CUA)的验证器(Verifier)提供一个标准化评估基准。该数据集的核心研究问题聚焦于如何客观、可靠地评判代理轨迹(包括屏幕截图、操作序列和最终答案)的任务完成质量,从而推动验证器模型的发展,弥补以往基准(如WebTailBench)仅评估代理本身性能的不足。通过集成Fara-7B代理在Online-Mind2Web任务上生成的轨迹与多阶段人工标注,该数据集为验证器与人类判断的一致性分析提供了坚实基础,对提升自主代理的可靠性与可解释性具有重要影响力。
当前挑战
CUAVerifierBench所针对的领域挑战在于,对计算机使用代理的轨迹进行自动化验证本身极具复杂性。这要求验证器不仅能理解多模态信息(如图像与文本),还需推理代理的操作逻辑与任务目标之间的语义关联,同时处理动态环境中的不确定性。在数据集构建过程中,研究人员面临多重挑战:首先,采集高质量、多样化的代理轨迹依赖于特定环境(如Browserbase远程浏览器)的稳定执行,且需确保轨迹覆盖真实网络任务的复杂性;其次,设计严谨的人工标注协议尤为关键,包括双阶段(UV-blind与UV-informed)标注以消除偏差,并维护标注者匿名性与一致性;此外,数据规模相对有限(仅260条轨迹),可能影响统计结论的泛化能力,而轨迹来源单一(仅Fara-7B代理)也限制了验证器在其他代理场景下的适用性评估。
常用场景
经典使用场景
在计算机使用代理(CUA)评估领域,CUAVerifierBench作为验证器性能的基准测试工具,其经典应用场景集中于系统化评估轨迹验证器的判别能力。研究者利用该数据集,通过对比人类标注者与自动化验证器(如通用验证器MMRubricAgent)对同一代理轨迹的判定结果,计算科恩卡帕系数、准确率等指标,从而量化验证器与人类判断的一致性。这种评估不仅限于静态性能比较,还支持分析验证器输出对人工判读的影响,为验证器的迭代优化提供实证基础。
衍生相关工作
围绕CUAVerifierBench,学术界衍生出一系列聚焦于验证器架构创新的研究。例如,部分工作基于其标注数据训练轻量级神经网络验证器,以替代耗能的通用模型;另有研究利用数据集中“盲注”与“信息注入”双阶段标注,深入分析人类判断受模型输出影响的认知偏差。这些工作不仅扩展了验证器设计的技术边界,还促进了人机协同评估范式的理论探索,形成了从基准构建到方法改进的完整研究脉络。
数据集最近研究
最新研究方向
在计算机使用代理评估领域,CUAVerifierBench作为首个专注于验证器性能的人类标注基准,正推动着智能体评估范式的深刻变革。该数据集通过整合Fara-7B代理在真实网页交互中的轨迹与多阶段人工标注,为验证器的可靠性研究提供了关键基础。前沿探索聚焦于提升验证器与人类判断的一致性,利用数据中“盲评”与“信息提示”双阶段标注,深入分析模型输出对人工评判的潜在影响。相关研究致力于开发更鲁棒的通用验证器架构,以应对复杂任务轨迹中的模糊边界问题,从而增强自主智能体在开放网络环境中行为评估的可信度与自动化水平。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作