ClawBenchV1Trace

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/NAIL-Group/ClawBenchV1Trace

下载链接

链接失效反馈

官方服务：

资源简介：

ClawBench V1 Traces 是 ClawBench 主数据集的配套数据集，包含了每个模型运行的完整执行痕迹。该数据集发布原始执行数据，每个任务×模型×尝试的目录包含屏幕录制、网络捕获、浏览器操作、代理推理和最终拦截的请求。数据集布局为每个运行一个目录，包含运行元数据、会话录制、网络层数据、浏览器操作流、代理推理痕迹等文件。覆盖了闭源前沿模型、流行的开源模型和人类基准运行。数据集规模较大，每个运行平均约10-15 MB，整个语料库包含数千次运行。适用于重新评分、行为分析、故障模式挖掘和视觉调试等任务。数据集采用Apache 2.0许可。

创建时间：

2026-05-03

原始信息汇总

ClawBench V1 Traces 数据集概述

基本信息

数据集名称: ClawBench V1 Traces
许可证: Apache-2.0
语言: 英文
规模: 1K < n < 10K 条记录
相关论文: arXiv:2604.08523
数据查看器: 未启用

数据集定位

该数据集是 ClawBench 基准测试的配套数据集。主数据集发布任务定义（指令、评分标准、评估模式），本数据集发布原始执行数据——每个（任务 × 模型 × 尝试）组合对应一个独立目录，包含屏幕录制、网络捕获、浏览器操作、智能体推理过程及最终拦截请求。

数据组织结构

仓库采用每个运行为一个独立目录的结构，目录命名格式为：<任务ID>-<任务别名>-<模型>-<时间戳>/

每个运行目录包含以下文件：

文件	大小	描述
`run-meta.json`	~1 KB	运行元数据：模型、框架、起止时间、退出原因、持续时长
`.sync_complete`	标记文件	原始主机同步完成标记
`data/recording.mp4`	~10 MB	完整会话录制（可视层）
`data/requests.jsonl`	~1–10 MB	网络层——每个HTTP请求与响应
`data/actions.jsonl`	~50 KB	浏览器操作流——点击、输入、导航
`data/agent-messages.jsonl`	~500 KB	智能体推理追踪——运行期间交换的LLM消息
`data/interception.json`	~0.5 KB	最终被拦截的HTTP请求（决定请求拦截评分标准下的通过/失败）
`data/.token_counts.json`	~50 B	运行令牌使用计数器

每个运行目录完全自包含，重新评分或回放单个运行仅需该目录。

覆盖的模型

涵盖闭源前沿模型、流行开源模型及人类真实运行数据。每个模型最多有153次运行（对应V1每个任务一次），多个批次的同一任务可能包含多次尝试。

闭源模型

claude-sonnet-4-6, claude-opus-4-6, claude-haiku-4-5-20251001
gpt-5.4-2026-03-05, gpt-5.4-mini-2026-03-17, gpt-4.1-2025-04-14
gemini-3.1-pro-preview, gemini-3-flash-preview, gemini-3.1-flash-lite-preview

开源模型

moonshotai--kimi-k2.5
qwen--qwen3.5-397b-a17b
z-ai--glm-5
minimax--minimax-m2.5, minimax--minimax-m2.7

代理路由与人类基线

cliproxy--claude-opus-4-6, cliproxy--claude-haiku-4-5-20251001（通过cliproy路由的Claude用于对比）
human——人类真实运行数据，用于锚定评分标准

运行目录名称嵌入模型和时间戳，按模型筛选只需简单的前缀过滤。

下载方式

完整数据集较大（每次运行平均10–15 MB，共数千次运行），大部分用户需要子集：

bash

下载全部（较大，数十GB）

hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace

下载单个模型的所有运行

hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace --include "-claude-sonnet-4-6-"

下载单个任务的所有运行（跨所有模型）

hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace --include "001-daily-life-food-uber-eats-*"

下载特定运行

hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace --include "001-daily-life-food-uber-eats-claude-sonnet-4-6-20260325-080945/*"

数据复用与重新评分

该数据集支持以下常见用途：

使用不同评估器重新评分：所有五层数据均存在，可替换新的VLM/LLM评估器重新评分，无需支付智能体推理成本。
行为分析：agent-messages.jsonl展示模型思考内容，actions.jsonl展示实际操作，两者差距往往是失败的关键原因。
失败模式挖掘：筛选interception.json中intercepted=false结合特定stop_reason，发现特定失败模式（如被CAPTCHA击败的运行）。
可视化调试：recording.mp4是理解JSON追踪文件抽象描述的实际运行情况的最快方式。

引用格式

bibtex @article{zhang2026clawbench, title={ClawBench: Can AI Agents Complete Everyday Online Tasks?}, author={Yuxuan Zhang and Yubo Wang and Yipeng Zhu and Penghui Du and Junwen Miao and Xuan Lu and Wendong Xu and Yunzhuo Hao and Songcheng Cai and Xiaochen Wang and Huaisong Zhang and Xian Wu and Yi Lu and Minyi Lei and Kai Zou and Huifeng Yin and Ping Nie and Liang Chen and Dongfu Jiang and Wenhu Chen and Kelsey R. Allen}, journal={arXiv preprint arXiv:2604.08523}, year={2026} }

搜集汇总

数据集介绍

构建方式

ClawBenchV1Trace数据集作为ClawBench基准的配套资源，专注于发布所有模型在V1任务上执行时的原始轨迹数据。其构建方式遵循任务-模型-尝试次数的三维组织逻辑，为每一个独立运行单元创建一个专属目录，并以<任务编号>-<任务别名>-<模型名称>-<时间戳>的格式进行命名，便于按模型或任务进行前缀筛选。每个运行目录均内置run-meta.json元数据文件，以及data子文件夹，后者包含完整的视觉层屏幕录制、网络层HTTP请求与响应、浏览器动作流、智能体推理过程及最终拦截的请求，形成了多层异构数据的有机集合。该构建策略确保了每一运行单元的高度自洽性，使得重新评分或复现分析仅依赖单一目录即可完成。

特点

该数据集的核心特点体现在其全栈执行轨迹的完整覆盖与可复现性。它不仅记录了智能体的最终输出，更捕获了从浏览器动作到LLM推理链的每一层中间状态，包括screen recording、actions.jsonl中的点击与导航指令、agent-messages.jsonl中的思维链、以及决定任务成败的interception.json。这种多模态、多粒度的数据组织方式，为后续的重新评分、行为剖析与失败模式挖掘提供了丰富素材。此外，数据集涵盖了从闭源前沿模型（如Claude、GPT、Gemini系列）到开源模型（如Qwen、GLM、Minimax）乃至人类基准确认运行的广泛模型类型，支撑了跨模型对比与评估一致性分析。

使用方法

用户可借助Hugging Face的下载工具，通过--include参数灵活选取所需子集，例如单独下载某一模型的所有运行记录或特定任务的全部尝试。快速启用的方式为：指定一个运行目录，利用Python读取run-meta.json获取模型与耗时信息，解析actions.jsonl还原浏览器操作序列，或通过agent-messages.jsonl探查LLM的推理过程。基于该数据集，研究人员能够在无需重新运行智能体的前提下，替换新的评判模型进行重新评分、筛选intercepted=false的记录以定位失败模式，或通过recording.mp4展开直观的视觉调试，从而大幅提升评估与研究的效率。

背景与挑战

背景概述

ClawBenchV1Trace数据集由NAIL-Group于2026年创建，专注于评估AI代理在真实网页任务中的执行能力。该数据集通过记录每个模型运行的完整执行轨迹（包括屏幕录像、网络请求、浏览器操作和代理推理过程），解决了AI代理基准测试中可重现性和细粒度调试的难题。作为ClawBench基准测试的配套数据集，它收录了包括Claude、GPT、Gemini系列及Kimi、Qwen等开源与闭源前沿模型的数千次运行记录，为研究不同代理在日常生活任务中的表现提供了标准化数据基础。其影响力体现在推动了代理行为分析、失败模式挖掘和新评估方法的开发，填补了现有基准测试中执行数据公开不足的空白。

当前挑战

ClawBenchV1Trace面临的挑战首要来自领域问题：AI代理需在真实网页环境中完成如点餐、购物等复杂任务，面临动态页面结构、反自动化机制（如CAPTCHA）、多模态交互及长链推理的挑战，传统评估指标难以捕捉失败的具体原因。构建过程中，数据集需保证每个运行目录的可重现性，但录制规模达数万次运行、总容量数十GB，对存储与传输效率构成压力。同时，不同模型运行速度差异导致时间戳对齐困难，且人工作为基准的轨迹（human ground-truth runs）需确保评分标准（rubric）的客观一致性。这些挑战共同驱动了数据分层存储与灵活检索方案的设计（如按模型、任务过滤），以支持多场景复用与分析。

常用场景

经典使用场景

ClawBenchV1Trace作为面向Web智能体（Web Agent）的细粒度执行轨迹数据集，其核心应用场景在于全面评估和深入剖析多模态大语言模型（LLM）在真实网络任务中的自主导航与操作能力。该数据集完整记录了每一条模型运行轨迹的五个关键层次：视觉屏幕录像、网络请求捕获、浏览器行为流、智能体推理链以及最终拦截的请求结果，为研究者提供了一个从宏观到微观、从行为到认知的全方位分析平台。通过这一结构化且自包含的数据仓库，研究人员得以在任何后续时间点对模型表现进行重新评分、实施细粒度的行为调试，或构建超越原始评价体系的新型评估机制，无需重新启动代价高昂的智能体推理过程。这种基于执行轨迹的离线分析范式，在提升研究可复现性的同时，也极大地降低了对昂贵API调用的重复依赖，使得对前沿模型能力边界的探索变得更为经济与透明。

解决学术问题

在学术研究层面，ClawBenchV1Trace系统性地解决了Web自动化领域长期存在的评估黑箱化与不可复现问题。传统上，对智能体完成真实Web任务能力的评测往往依赖于最终输出结果的简单比对，忽略了执行过程中的丰富信息，导致模型失败的根本原因难以归因。该数据集通过发布全量执行轨迹，使得研究者能够深入挖掘模型推理与实际行动之间的偏差，探索视觉感知、规划决策与动作执行等多环节的协同失效模式。它提供了首个支持分层评估标准切换的学术基础设施，允许学界在不变动原始模型推理成本的前提下，验证更优的评分算法或引入全新的评估维度，从而推动Web智能体评估方法论从单一的结果导向向多层面的过程分析演进。这一贡献不仅增强了研究结论的稳健性与可比性，更为制定诊断式的、具备强解释性的智能体性能基准奠定了坚实的数据基础。

衍生相关工作

ClawBenchV1Trace的发布预计将催生一系列围绕Web智能体行为分析与评估优化的衍生研究工作。基于其提供的标准化执行轨迹格式，研究者可开发面向失败模式的聚类分析算法，系统性地归纳出通用型智能体在面对验证码、模态弹窗或动态加载内容时的典型失效谱系。该数据集完整的多轮对话智能体推理记录——agent-messages.jsonl——为探索推理链与行动链之间的因果关系提供了理想的实验场，可能催生结合反思机制或自我纠错策略的新型智能体架构。同时，五个精细分层的数据通道使得开发跨模态可复用评估器成为现实，这类评估器能够通过联合分析视觉、文本与结构化动作信息，自动生成比当前标答更具鲁棒性的评分规则，最终推动Web智能体评估体系从静态的二元判别迈向动态的、具备持续学习能力的综合评价框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集