ClawBenchV2Trace

Name: ClawBenchV2Trace
Creator: TIGER-Lab
Published: 2026-05-12 23:05:59
License: 暂无描述

Hugging Face2026-05-12 更新2026-05-13 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/ClawBenchV2Trace

下载链接

链接失效反馈

官方服务：

资源简介：

ClawBench V2 Traces 是一个包含完整执行轨迹的数据集，记录了在 ClawBench V2 基准测试中每个模型运行的所有原始执行数据。该数据集是 NAIL-Group/ClawBench（任务定义）和 NAIL-Group/ClawBenchV1Trace（V1 轨迹）的配套数据集，专门针对 V2 版本（包含 130 个任务，相较于 V1 的 153 个任务集进行了更新和扩展）。数据集为每个（任务 × 模型 × 尝试）的运行提供一个独立的目录。每个目录都是自包含的，包含核心文件：屏幕录制视频（recording.mp4）、网络请求与响应的完整捕获（requests.jsonl）、浏览器操作流（actions.jsonl）、智能体大型语言模型的推理轨迹（agent-messages.jsonl）、最终被拦截的 HTTP 请求（interception.json）、LLM 评判器对拦截负载的裁决结果（judge.json）以及智能体的标准输出和错误日志。这些数据使得研究人员无需重新运行智能体，即可对任何运行进行重新评分、调试或在其基础上构建新的评估器。截至 2026 年 5 月 12 日，该数据集包含 806 个 V2 运行记录，涵盖了多个先进的大型语言模型（如 glm-5.1, deepseek-v4-pro, claude-opus-4-7, gpt-5.5 等）在 130 个真实世界在线任务上的表现。每个运行目录平均大小约为 10-15 MB。该数据集适用于评估网络智能体、浏览器自动化 AI 智能体的性能，支持多模态（视觉、网络、交互）任务的重现性研究、基准测试分析以及智能体行为分析。数据集采用 Apache 2.0 许可证发布。

提供机构：

TIGER-Lab

创建时间：

2026-05-12

原始信息汇总

ClawBench V2 Traces 数据集概述

基本信息

数据集名称: ClawBench V2 Traces
许可证: Apache-2.0
语言: 英语
数据集大小: 1K < n < 10K（超过800次运行）
相关论文: arXiv:2604.08523
数据集标识: TIGER-Lab/ClawBenchV2Trace

数据集描述

该数据集是 ClawBench V2 基准测试中所有模型运行的完整执行轨迹集合。每个任务 × 模型 × 尝试对应一个独立目录，包含完整的运行记录（屏幕录像、网络捕获、浏览器操作、代理推理过程及最终拦截请求）。用户可以在不重新运行代理的情况下重新评分、调试或构建新的评估器。

该数据集对应的是 V2 的 130个任务集，比原始 V1 的153个任务集覆盖范围更广、更新。

数据目录结构

每个运行目录的命名格式为：hermes-v2-<task_id>-<task_slug>-<model>-<timestamp>/，包含以下文件：

文件	大小	说明
`data/recording.mp4`	~10 MB	完整会话录像（视觉层）
`data/requests.jsonl`	~1-10 MB	网络层——每个HTTP请求/响应
`data/actions.jsonl`	~50 KB	浏览器操作流
`data/agent-messages.jsonl`	~500 KB	代理LLM推理轨迹
`data/interception.json`	~1 KB	最终被拦截的HTTP请求（或 `intercepted=false`）
`data/judge.json`	~1 KB	LLM裁判对拦截负载的裁决
`data/agent-stdout.log`	-	代理标准输出日志
`data/agent-stderr.log`	-	代理标准错误日志

涵盖的模型（截至2026-05-12，共806次V2运行）

排名	模型	工具框架	拦截率	奖励值	运行次数
1	`glm-5.1`	hermes	48.5%	18.5%	130
2	`deepseek-v4-pro`	hermes	43.8%	10.0%	130
3	`claude-opus-4-7` (部分)	hermes	54.7%	13.3%	75
4	`gpt-5.5` (部分)	hermes	48.1%	11.1%	81
5	`openrouter/owl-alpha`	hermes	14.6%	4.6%	130
6	`deepseek-v4-flash`	hermes	3.1%	1.5%	130
7	`glm-5.1`	openclaw	0.0%	0.0%	130

排名依据：按 intercepted / 130（第一阶段，语料归一化）排序，奖励值作为平局判定；部分批次因未尝试任务而受罚。

评分机制（两阶段评分）

拦截阶段（Interception） — 最终HTTP请求是否匹配每任务预定义的URL/方法评估模式（eval_schema）。
裁判阶段（Judge） — LLM裁判（默认使用OpenRouter上的 deepseek/deepseek-v4-pro）验证负载是否符合自然语言指令。

最终通过条件： final_pass = intercepted AND judge_match。数据集中每个 data/judge.json 文件记录了裁判的裁决结果、理由及使用的裁判模型。

相关资源

排行榜: https://claw-bench.com/leaderboard
基准测试定义: https://huggingface.co/datasets/NAIL-Group/ClawBench
论文: https://arxiv.org/abs/2604.08523
代码: https://github.com/reacher-z/ClawBench
V1轨迹数据集: https://huggingface.co/datasets/NAIL-Group/ClawBenchV1Trace
实时排行榜空间: https://huggingface.co/spaces/TIGER-Lab/ClawBench
项目网站: https://claw-bench.com/

搜集汇总

数据集介绍

构建方式

ClawBenchV2Trace 数据集是伴随 ClawBench V2 基准测试发布的执行轨迹集合，旨在为每一个经过评估的模型运行提供完整的原始执行数据。该数据集的构建遵循严格的单次运行独立存储原则：对于每一组（任务、模型、尝试次数）的组合，系统自动生成一个独立目录，目录命名规则为“hermes-v2-任务ID-任务别名-模型名称-时间戳”。每个目录内统一包含屏幕录制视频（recording.mp4）、网络请求日志（requests.jsonl）、浏览器动作流（actions.jsonl）、智能体推理日志（agent-messages.jsonl）、最终拦截请求（interception.json）、裁判模型裁决结果（judge.json）以及标准输出和错误日志。这种高度结构化的组织方式确保了每个运行目录的完全自包含性，任何重新评分、调试或构建新评估器的工作仅需依赖单一目录即可完成。

使用方法

用户可通过Hugging Face Datasets命令行工具灵活下载所需子集。典型用法包括：按模型筛选所有运行（例如 hf download 并指定模型名称模式）、按任务ID跨模型获取同一任务的轨迹（例如包含 hermes-v2-1010-* 模式），或直接下载完整数据集。下载后，用户可利用官方提供的 clawbench-eval 包和重评分脚本，通过设置 OPENROUTER_API_KEY 环境变量并运行 clawbench_rescore.py 来复现排行榜上的任意分数。评分体系采用两阶段方法：第一阶段判断最终拦截请求是否匹配任务预定义的URL与方法模式，第二阶段由大型语言模型裁判（默认使用 deepseek/deepseek-v4-pro）验证实际载荷是否满足自然语言指令要求，最终通过联合条件确定任务是否成功完成。

背景与挑战

背景概述

ClawBenchV2Trace数据集由NAIL-Group研究团队于2026年发布，旨在系统性地评估大语言模型（LLM）驱动的智能体在真实网络任务中的执行能力。该数据集作为ClawBench基准测试的配套资源，收录了130项多样化任务上多种前沿模型（如GLM-5.1、DeepSeek-V4系列等）的完整执行轨迹，包括屏幕录制、网络请求、浏览器操作与智能体推理过程等细粒度信息。其核心研究问题在于揭示当前LLM智能体在自动化完成日常在线操作（如表单填写、信息检索）时的性能瓶颈与行为模式，为构建更鲁棒的自主智能体系统提供可复现的评估基准。ClawBenchV2Trace通过开放完整的原始执行数据，显著推动了浏览器自动化与智能体评估领域的标准化进程，已成为相关研究社区引用与再分析的重要参考。

当前挑战

ClawBenchV2Trace核心致力于解决LLM智能体在复杂真实网络任务中可靠性与泛化性不足的领域级挑战，当前智能体在非标准化网页结构与动态交互场景下常遭遇拦截失败（interception），需通过两阶段评估机制（请求拦截与有效载荷验证）精确量化其完成任务的能力。在构建过程中，团队面临的核心挑战包括：确保跨2000余次运行记录的数据完整性，平衡约10-15MB单条轨迹的视频、网络与推理日志的存储与下载效率；设计统一且自动化的两阶段评分流程以消除人工评估偏差，同时维护持续更新的评估模型排行榜以反映技术迭代的动态演进。此外，如何在不依赖重跑智能体的前提下为社区提供可再评分与调试的原子化执行轨迹目录，亦是确保基准可复现性的关键设计权衡。

常用场景

经典使用场景

ClawBenchV2Trace 数据集作为浏览器代理智能体评估领域的标杆性资源，其经典使用场景在于为多模态智能体在真实网络环境中的任务执行能力提供细粒度的可追溯评估。该数据集收录了每个模型在 130 个 V2 版日常在线任务上的完整执行轨迹，涵盖屏幕录制、网络请求、浏览器操作序列、智能体推理过程及最终拦截请求等全方位信息。研究者可通过这些自洽的运行目录，无需重新运行智能体即可完成评分复现、调试分析与评估器构建，从而在标准化条件下对比不同模型在复杂网页交互任务中的表现。

解决学术问题

该数据集从根本上解决了浏览器智能体评估中长期存在的可复现性与透明度不足的学术难题。传统评估方式往往仅报告最终得分，缺乏对智能体执行过程的详细记录，导致研究者难以诊断失败原因或验证评估结果的可靠性。ClawBenchV2Trace 通过发布完整的执行轨迹，使学术界能够深入剖析智能体在感知、推理与操作各环节的细微表现，揭示模型在不同任务类型上的优劣根源。这种开放透明的评估范式不仅推动了智能体基准测试的可信度提升，更为后续研究提供了宝贵的数据基础，促进了浏览器自动化领域方法论的系统性进步。

实际应用

在实际应用层面，ClawBenchV2Trace 数据集为构建和优化面向普通用户的浏览器自动化助手提供了坚实的评测平台。该数据集所涵盖的 130 个真实世界任务，如在线购物、信息检索、表单填写等，直接映射了用户日常网络操作中的典型需求。开发者可借助该数据集的执行轨迹数据，诊断自身智能体在特定场景下的失败模式，进而针对性地改进感知模块或推理策略。此外，数据集的结构化格式使得它能够无缝集成到持续集成流水线中，作为模型发布前的自动化回归测试工具，确保浏览器代理在实际部署前的可靠性。

数据集最近研究