ClawBenchV1Trace
收藏ClawBench V1 Traces 数据集概述
基本信息
- 数据集名称: ClawBench V1 Traces
- 许可证: Apache-2.0
- 语言: 英文
- 规模: 1K < n < 10K 条记录
- 相关论文: arXiv:2604.08523
- 数据查看器: 未启用
数据集定位
该数据集是 ClawBench 基准测试的配套数据集。主数据集发布任务定义(指令、评分标准、评估模式),本数据集发布原始执行数据——每个(任务 × 模型 × 尝试)组合对应一个独立目录,包含屏幕录制、网络捕获、浏览器操作、智能体推理过程及最终拦截请求。
数据组织结构
仓库采用每个运行为一个独立目录的结构,目录命名格式为:<任务ID>-<任务别名>-<模型>-<时间戳>/
每个运行目录包含以下文件:
| 文件 | 大小 | 描述 |
|---|---|---|
run-meta.json |
~1 KB | 运行元数据:模型、框架、起止时间、退出原因、持续时长 |
.sync_complete |
标记文件 | 原始主机同步完成标记 |
data/recording.mp4 |
~10 MB | 完整会话录制(可视层) |
data/requests.jsonl |
~1–10 MB | 网络层——每个HTTP请求与响应 |
data/actions.jsonl |
~50 KB | 浏览器操作流——点击、输入、导航 |
data/agent-messages.jsonl |
~500 KB | 智能体推理追踪——运行期间交换的LLM消息 |
data/interception.json |
~0.5 KB | 最终被拦截的HTTP请求(决定请求拦截评分标准下的通过/失败) |
data/.token_counts.json |
~50 B | 运行令牌使用计数器 |
每个运行目录完全自包含,重新评分或回放单个运行仅需该目录。
覆盖的模型
涵盖闭源前沿模型、流行开源模型及人类真实运行数据。每个模型最多有153次运行(对应V1每个任务一次),多个批次的同一任务可能包含多次尝试。
闭源模型
claude-sonnet-4-6,claude-opus-4-6,claude-haiku-4-5-20251001gpt-5.4-2026-03-05,gpt-5.4-mini-2026-03-17,gpt-4.1-2025-04-14gemini-3.1-pro-preview,gemini-3-flash-preview,gemini-3.1-flash-lite-preview
开源模型
moonshotai--kimi-k2.5qwen--qwen3.5-397b-a17bz-ai--glm-5minimax--minimax-m2.5,minimax--minimax-m2.7
代理路由与人类基线
cliproxy--claude-opus-4-6,cliproxy--claude-haiku-4-5-20251001(通过cliproy路由的Claude用于对比)human——人类真实运行数据,用于锚定评分标准
运行目录名称嵌入模型和时间戳,按模型筛选只需简单的前缀过滤。
下载方式
完整数据集较大(每次运行平均10–15 MB,共数千次运行),大部分用户需要子集:
bash
下载全部(较大,数十GB)
hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace
下载单个模型的所有运行
hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace --include "-claude-sonnet-4-6-"
下载单个任务的所有运行(跨所有模型)
hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace --include "001-daily-life-food-uber-eats-*"
下载特定运行
hf download --repo-type dataset NAIL-Group/ClawBenchV1Trace --include "001-daily-life-food-uber-eats-claude-sonnet-4-6-20260325-080945/*"
数据复用与重新评分
该数据集支持以下常见用途:
- 使用不同评估器重新评分:所有五层数据均存在,可替换新的VLM/LLM评估器重新评分,无需支付智能体推理成本。
- 行为分析:
agent-messages.jsonl展示模型思考内容,actions.jsonl展示实际操作,两者差距往往是失败的关键原因。 - 失败模式挖掘:筛选
interception.json中intercepted=false结合特定stop_reason,发现特定失败模式(如被CAPTCHA击败的运行)。 - 可视化调试:
recording.mp4是理解JSON追踪文件抽象描述的实际运行情况的最快方式。
引用格式
bibtex @article{zhang2026clawbench, title={ClawBench: Can AI Agents Complete Everyday Online Tasks?}, author={Yuxuan Zhang and Yubo Wang and Yipeng Zhu and Penghui Du and Junwen Miao and Xuan Lu and Wendong Xu and Yunzhuo Hao and Songcheng Cai and Xiaochen Wang and Huaisong Zhang and Xian Wu and Yi Lu and Minyi Lei and Kai Zou and Huifeng Yin and Ping Nie and Liang Chen and Dongfu Jiang and Wenhu Chen and Kelsey R. Allen}, journal={arXiv preprint arXiv:2604.08523}, year={2026} }




