five

ClawBench

收藏
Hugging Face2026-05-10 更新2026-05-11 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/ClawBench
下载链接
链接失效反馈
官方服务:
资源简介:
ClawBench 是一个用于评估 AI 网络代理能力的开源基准测试数据集,旨在测试代理在真实网站上完成日常在线任务(如预订航班、订购杂货、提交工作申请等)的能力。数据集包含两个版本:V1(153 个任务,覆盖 144 个网站)和 V2(130 个新任务)。每个任务运行过程中捕获了五层行为数据(会话回放、屏幕截图、HTTP 流量、代理推理痕迹和浏览器操作),并收集了人工真实数据。数据集结构包括任务 ID、指令、元类别、平台等字段,并提供了额外的共享文件和任务特定上下文。ClawBench 适用于文本生成、问答和其他 AI 代理相关任务,支持多模态评估。

ClawBench is an open-source benchmark dataset for evaluating the capabilities of AI web agents, designed to test agents ability to complete daily online tasks (such as booking flights, ordering groceries, submitting job applications, etc.) on real websites. The dataset includes two versions: V1 (153 tasks covering 144 websites) and V2 (130 new tasks). During each task run, five layers of behavioral data are captured (session replay, screenshots, HTTP traffic, agent reasoning traces, and browser operations), and human real data is collected. The dataset structure includes fields such as task ID, instructions, meta-categories, platforms, and provides additional shared files and task-specific contexts. ClawBench is suitable for text generation, question answering, and other AI agent-related tasks, supporting multimodal evaluation.
提供机构:
TIGER-Lab
创建时间:
2026-05-10
原始信息汇总

数据集概述:ClawBench

ClawBench 是一个面向 AI 网页智能体(Web Agents)的开放基准测试平台,旨在评估智能体在真实网站上完成日常在线任务的能力,例如预订航班、订购杂货和提交工作申请。

核心特性

  • 任务规模:包含两个版本:
    • V1:153 个任务,覆盖 144 个不同网站。
    • V2:130 个新任务,扩展了覆盖面。
  • 数据采集:每次运行捕获 5 层行为数据,包括会话回放、截图、HTTP 流量、智能体推理轨迹和浏览器操作。
  • 评估方式:采用带步骤级可追溯诊断的智能体评估器,并收集人工标注的真实结果作为基准。
  • 许可证:Apache-2.0。

数据集结构

数据集以 Parquet 格式提供,可通过 Hugging Face datasets 库加载。

列名 类型 说明
task_id int 唯一任务标识符
instruction string 发送给智能体的任务提示
metaclass string 高级类别(共21类)
class string 细粒度子类别
platform string 目标平台(共144个独立平台)
sites list[string] 任务涉及的域名
eval_schema string (JSON) 请求拦截配置
time_limit int 最大时间限制(分钟)
extra_info string (JSON) 额外上下文文件路径
shared_info string 共享用户配置文件路径

附加文件

  • shared/alex_green_personal_info.json:一个全面的虚拟用户档案(Alex Green),包含个人信息、地址、工作经历、教育背景、财务信息和偏好,所有任务共享此身份。
  • extra_info/:32 个任务包含具体上下文文件,如杂货清单、工作链接、会议详情等。

eval_schema 字段配置请求拦截器,通过阻止特定 HTTP 请求来防止在真实网站上执行不可逆操作(如结账、表单提交),从而保证安全评估。

任务类别(metaclass)

数据集的任务涵盖 21 个高级类别,前11类列举如下:

类别 任务数 示例平台
daily-life(日常生活) 21 Uber Eats, Instacart, Zillow
entertainment-hobbies(娱乐爱好) 15 Goodreads, Eventbrite, Fandango
creation-init(创建与启动) 13 ClickUp, Typeform, Ghost
office-secretary-tasks(办公秘书) 9 Trello, Calendly, Purelymail
rating-voting(评分与投票) 10 TripAdvisor, Glassdoor, Yelp
education-learning(教育学习) 9 Coursera, LeetCode, Blinkist
travel(旅行) 9 Google Flights, Hipcamp, Airbnb
beauty-personal-care(美容个人护理) 9 TaskRabbit, Booksy, Soko Glam
pet-animal-care(宠物动物护理) 8 Rover, Petfinder, Chewy
job-search-hr(求职与人力资源) 8 Indeed, Greenhouse, ZipRecruiter
academia-research(学术研究) 5 Zotero, Overleaf, Google Scholar

排行榜

排行榜实时更新,可在 Hugging Face Space 查看。以下为截至 2026-05-10 的快照(前7名):

排名 模型 测试框架 语料库 通过数 总数 通过率 耗时(小时)
1 glm-5.1 hermes v2 63 130 48.46% 11.35
2 glm-5.1 hermes v1 25 153 16.34% 15.37
3 openrouter/owl-alpha hermes v2 19 130 14.62% 7.58
4 deepseek/deepseek-v4-flash hermes v1 14 153 9.15% 13.59
5 glm-5.1 openclaw v1 13 153 8.50% 6.50
6 deepseek/deepseek-v4-flash hermes v2 4 130 3.08% 2.37
7 poolside/laguna-m.1:free hermes v1 1 153 0.65% 1.52

提交结果:使用 clawbench-eval 工具运行模型,并向仓库中的 leaderboard/results.csv 文件提交 Pull Request。

使用方式

python from datasets import load_dataset

ds = load_dataset("NAIL-Group/ClawBench", split="test") print(ds[0])

参考文献

bibtex @article{zhang2026clawbench, title={ClawBench: Can AI Agents Complete Everyday Online Tasks?}, author={Yuxuan Zhang and Yubo Wang and Yipeng Zhu and Penghui Du and Junwen Miao and Xuan Lu and Wendong Xu and Yunzhuo Hao and Songcheng Cai and Xiaochen Wang and Huaisong Zhang and Xian Wu and Yi Lu and Minyi Lei and Kai Zou and Huifeng Yin and Ping Nie and Liang Chen and Dongfu Jiang and Wenhu Chen and Kelsey R. Allen}, journal={arXiv preprint arXiv:2604.08523}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
ClawBench旨在评估AI Web代理在真实在线任务中的表现,其构建方式颇具匠心。研究人员从日常生活中广泛存在的在线操作场景出发,精心设计了V1与V2两个版本的任务集合,分别包含153项与130项任务,覆盖了航班预订、生鲜采购、求职申请等多样化的实用场景,并涉及144个真实网站。为确保评估的完整性,每一轮运行均采集五层行为数据,包括会话回放、屏幕截图、HTTP流量、代理推理轨迹及浏览器操作记录。此外,还通过人工标注获取任务的真实结果,并结合可提供分步诊断的智能评估器对代理性能进行细粒度打分,构成了一个严谨且可复现的评测框架。
特点
该数据集呈现出显著的真实性与复杂性特征。所有任务均在实时网站上执行,避免了静态模拟环境的局限性,使得评估结果更能反映模型在真实部署条件下的能力。任务分类体系极为详尽,涵盖日常生活、娱乐爱好、创建工作、教育学习、旅行规划等21个高层次类别,下游子类划分则更为精细。评测过程特别设计了请求拦截机制,通过配置eval_schema来阻止最终的关键请求(如支付提交),从而在保证操作安全的同时,允许模型在真实网页环境中自由导航。这种设计巧妙地平衡了评估的真实性与实验的可控性。
使用方法
使用ClawBench评估一个AI代理十分简洁。用户首先需要通过Python的pip工具安装官方评测包clawbench-eval。安装完成后,利用datasets库加载数据集的测试集即可获取任务指令、时间限制、目标平台及评估模式等关键字段。随后,评测框架会驱动代理在一个真实的浏览器环境中按照指令操作,并自动捕获全流程行为数据。提交结果时,只需在官方排行榜仓库中新建一个Pull Request,将模型在特定配置下(如hermes或openclaw测试框架)的运行结果以单行记录的形式添加到results.csv文件中,即可将模型性能展现于公开榜单之上。
背景与挑战
背景概述
ClawBench是由NAIL-Group研究团队于2026年创建的面向AI网页代理的基准测试数据集,旨在系统评估智能体在真实互联网环境中端到端执行日常任务的能力。该数据集由Yuxuan Zhang、Wenhu Chen等来自多所机构的研究人员共同开发,核心研究问题在于衡量语言模型驱动的浏览器代理能否像人类一样完成诸如预订航班、订购杂货、提交工作申请等复杂网络操作。通过涵盖283个任务(V1版本153个任务横跨144个网站,V2版本新增130个任务)及21个细分类别,ClawBench为网页代理领域提供了首个具备多维度行为数据记录(包括会话回放、屏幕截图、HTTP流量、推理轨迹与浏览器动作)的标准化评测平台,其排行榜中目前最优模型(GLM-5.1)在V2上的通过率仅为48.46%,凸显出该研究的巨大探索空间。
当前挑战
ClawBench所解决的领域核心挑战在于现有代理基准测试多局限于静态或模拟环境,无法反映真实网络交互中的动态变化与不可逆操作风险。该数据集通过请求拦截器机制(eval_schema)实现了安全评估,但仍面临以下挑战:一是真实网站界面的频繁更新导致任务一致性难以长期维持,需持续维护任务描述与目标平台间的对应关系;二是代理在跨网站任务中需要整合共享用户身份(如Alex Green虚构档案)与任务特定上下文(如购物清单),这对语义理解与长程规划能力提出极高要求;三是评测体系需平衡自动化评分效率与人类标注准确性,当前排行榜中GLM-5.1在V1上的通过率仅16.34%,表明现有模型在真实复杂任务中仍存在显著性能瓶颈。
常用场景
经典使用场景
ClawBench是专为评估AI网络代理在真实网页上完成端到端任务能力而设计的标杆数据集。其经典使用场景涵盖日常在线操作的方方面面,从预订航班、订购杂货到提交求职申请,共包含两类任务集合:V1版含153项任务横跨144个网站,V2版新增130项更复杂的任务。该数据集通过记录会话回放、屏幕截图、HTTP流量、推理轨迹以及浏览器动作等五层行为数据,并结合人类标注的基准真相与代理评估器的逐步骤可追溯诊断,为衡量智能体在动态、多变的真实网络环境中的自主导航与任务完成能力提供了标准化且多维度的测试框架。
实际应用
在实际应用中,ClawBench为企业和开发者提供了评估和部署网页自动化智能体的关键工具。电商平台可利用其任务框架测试AI购物助手的订单处理与支付流程完整性;招聘网站可验证自动投递简历系统的准确性与安全性;旅游服务平台能评估智能体处理多步骤预订操作(如筛选航班、填写旅客信息、模拟确认)的稳健性。此外,金融机构和政府部门可借助数据集中的安全评估机制,在真实网站上进行非破坏性的自动化流程测试,确保智能体在操作敏感事务(如表单提交)时不会造成实际数据变更。该基准还支持CI/CD流水线集成,使研发团队能在迭代过程中持续监控代理性能。
衍生相关工作
围绕ClawBench已产生一系列有价值的相关工作。其配套的原始轨迹数据集ClawBenchV1Trace收录了模型运行时的完整多媒体记录,为研究者提供了分析智能体决策过程、错误模式及行为可解释性的宝贵资源。活跃的公开排行榜(Leaderboard)持续追踪GLM-5.1、DeepSeek-V4等先进模型的评测结果,催生了如开源评估框架Hermes与OpenClaw等多项独立的代理评估工具。此外,数据集中提出的基于HTTP拦截的同步安全评估机制启发了后续研究,推动了针对不可逆操作的安全自动化测试方法的标准化,为构建更可信赖的网页智能体生态奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作