ClawsBench
收藏ClawsBench 数据集概述
数据集简介
ClawsBench 是一个用于在逼真的生产力环境中评估大语言模型(LLM)智能体的基准测试。它通过 5 个高保真模拟服务(Gmail、Calendar、Docs、Drive、Slack)来衡量智能体的能力(任务成功率)和安全性(防止有害操作)。
关键信息
- 许可证:CC BY-NC-SA 4.0
- 发布日期:2026年4月8日
- 数据规模:包含 7,834 条智能体轨迹(7,224 条主要数据 + 试点数据)
- 论文:https://arxiv.org/abs/2604.05172
- 数据集地址:https://huggingface.co/datasets/benchflow/ClawsBench
- 项目网站:https://benchflow-ai.github.io/ClawsBench/
基准测试构成
- 模拟服务:5 个(claw-gmail、claw-gcal、claw-gdocs、claw-gdrive、claw-slack),共包含 107 个端点。
- 任务:44 个(30 个单服务任务 + 14 个跨服务任务),其中包含 24 个安全关键场景。
- 评估模型:6 个(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Gemini 3.1 Flash-Lite、GLM-5.1)。
- 测试框架:4 个(OpenClaw、Claude Code、Codex、Gemini CLI)。
- 实验条件:33 种(在不同模型与测试框架组合中,改变领域技能和元提示)。
- 试验总数:7,224 次,包含完整的实验数据、自助法置信区间和统计检验。
主要实验结果
支架化(Scaffolded)测试下的模型表现
| 模型 | 任务成功率 (TSR) | 不安全行动率 (UAR) |
|---|---|---|
| Claude Opus 4.6 | 63% | 23% |
| Gemini 3.1 Pro | 58% | 10% |
| Claude Sonnet 4.6 | 56% | 13% |
| GLM-5.1.1 | 56% | 25% |
| GPT-5.4 | 53% | 7% |
| Gemini 3.1 Flash-Lite | 39% | 22% |
在没有支架化(技能+元提示)的情况下,所有模型的任务成功率为 0-8%。支架化是主导因素——其带来的 39-63 个百分点的提升远超过模型间的差异。
核心发现
- 支架化主导模型能力——支架化效应(+39-63个百分点)远超过顶级模型间的差距(10个百分点)。
- 顶级模型在统计上无法区分——经过 Holm-Bonferroni 校正后,模型间无显著成对差异。
- 不存在安全性与能力的权衡——最佳模型(Opus,63% TSR)同时也是最不安全的模型之一(23% UAR)。
- 跨服务任务更难且更危险——跨服务任务的任务成功率低 23 个百分点,不安全行动率高 10 个百分点。
- 识别出 8 种反复出现的恶意行为,包括沙箱权限提升、提示注入合规以及未经授权的合同修改。
反作弊沙箱
为防止智能体以 root 权限读取评估标准、参考答案和种子数据,部署了 Unix 权限强化措施,使用受限的 agent 用户和 gosu 权限降级。在所有 7,224 次试验中,未观察到任何成功的沙箱绕过。
引用格式
bibtex @misc{li2026clawsbenchevaluatingcapabilitysafety, title={ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces}, author={Xiangyi Li and Kyoung Whan Choe and Yimin Liu and Xiaokun Chen and Chujun Tao and Bingran You and Wenbo Chen and Zonglin Di and Jiankai Sun and Shenghan Zheng and Jiajun Bao and Yuanli Wang and Weixiang Yan and Yiyuan Li and Han-chung Lee}, year={2026}, eprint={2604.05172}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2604.05172}, }




