ClawBench
收藏数据集概述:ClawBench
ClawBench 是一个面向 AI 网页智能体(Web Agents)的开放基准测试平台,旨在评估智能体在真实网站上完成日常在线任务的能力,例如预订航班、订购杂货和提交工作申请。
核心特性
- 任务规模:包含两个版本:
- V1:153 个任务,覆盖 144 个不同网站。
- V2:130 个新任务,扩展了覆盖面。
- 数据采集:每次运行捕获 5 层行为数据,包括会话回放、截图、HTTP 流量、智能体推理轨迹和浏览器操作。
- 评估方式:采用带步骤级可追溯诊断的智能体评估器,并收集人工标注的真实结果作为基准。
- 许可证:Apache-2.0。
数据集结构
数据集以 Parquet 格式提供,可通过 Hugging Face datasets 库加载。
| 列名 | 类型 | 说明 |
|---|---|---|
task_id |
int | 唯一任务标识符 |
instruction |
string | 发送给智能体的任务提示 |
metaclass |
string | 高级类别(共21类) |
class |
string | 细粒度子类别 |
platform |
string | 目标平台(共144个独立平台) |
sites |
list[string] | 任务涉及的域名 |
eval_schema |
string (JSON) | 请求拦截配置 |
time_limit |
int | 最大时间限制(分钟) |
extra_info |
string (JSON) | 额外上下文文件路径 |
shared_info |
string | 共享用户配置文件路径 |
附加文件:
shared/alex_green_personal_info.json:一个全面的虚拟用户档案(Alex Green),包含个人信息、地址、工作经历、教育背景、财务信息和偏好,所有任务共享此身份。extra_info/:32 个任务包含具体上下文文件,如杂货清单、工作链接、会议详情等。
eval_schema 字段配置请求拦截器,通过阻止特定 HTTP 请求来防止在真实网站上执行不可逆操作(如结账、表单提交),从而保证安全评估。
任务类别(metaclass)
数据集的任务涵盖 21 个高级类别,前11类列举如下:
| 类别 | 任务数 | 示例平台 |
|---|---|---|
| daily-life(日常生活) | 21 | Uber Eats, Instacart, Zillow |
| entertainment-hobbies(娱乐爱好) | 15 | Goodreads, Eventbrite, Fandango |
| creation-init(创建与启动) | 13 | ClickUp, Typeform, Ghost |
| office-secretary-tasks(办公秘书) | 9 | Trello, Calendly, Purelymail |
| rating-voting(评分与投票) | 10 | TripAdvisor, Glassdoor, Yelp |
| education-learning(教育学习) | 9 | Coursera, LeetCode, Blinkist |
| travel(旅行) | 9 | Google Flights, Hipcamp, Airbnb |
| beauty-personal-care(美容个人护理) | 9 | TaskRabbit, Booksy, Soko Glam |
| pet-animal-care(宠物动物护理) | 8 | Rover, Petfinder, Chewy |
| job-search-hr(求职与人力资源) | 8 | Indeed, Greenhouse, ZipRecruiter |
| academia-research(学术研究) | 5 | Zotero, Overleaf, Google Scholar |
排行榜
排行榜实时更新,可在 Hugging Face Space 查看。以下为截至 2026-05-10 的快照(前7名):
| 排名 | 模型 | 测试框架 | 语料库 | 通过数 | 总数 | 通过率 | 耗时(小时) |
|---|---|---|---|---|---|---|---|
| 1 | glm-5.1 |
hermes | v2 | 63 | 130 | 48.46% | 11.35 |
| 2 | glm-5.1 |
hermes | v1 | 25 | 153 | 16.34% | 15.37 |
| 3 | openrouter/owl-alpha |
hermes | v2 | 19 | 130 | 14.62% | 7.58 |
| 4 | deepseek/deepseek-v4-flash |
hermes | v1 | 14 | 153 | 9.15% | 13.59 |
| 5 | glm-5.1 |
openclaw | v1 | 13 | 153 | 8.50% | 6.50 |
| 6 | deepseek/deepseek-v4-flash |
hermes | v2 | 4 | 130 | 3.08% | 2.37 |
| 7 | poolside/laguna-m.1:free |
hermes | v1 | 1 | 153 | 0.65% | 1.52 |
提交结果:使用 clawbench-eval 工具运行模型,并向仓库中的 leaderboard/results.csv 文件提交 Pull Request。
使用方式
python from datasets import load_dataset
ds = load_dataset("NAIL-Group/ClawBench", split="test") print(ds[0])
参考文献
bibtex @article{zhang2026clawbench, title={ClawBench: Can AI Agents Complete Everyday Online Tasks?}, author={Yuxuan Zhang and Yubo Wang and Yipeng Zhu and Penghui Du and Junwen Miao and Xuan Lu and Wendong Xu and Yunzhuo Hao and Songcheng Cai and Xiaochen Wang and Huaisong Zhang and Xian Wu and Yi Lu and Minyi Lei and Kai Zou and Huifeng Yin and Ping Nie and Liang Chen and Dongfu Jiang and Wenhu Chen and Kelsey R. Allen}, journal={arXiv preprint arXiv:2604.08523}, year={2026} }




