ClawBench

github2026-04-12 更新2026-04-14 收录

下载链接：

https://github.com/reacher-z/ClawBench

下载链接

链接失效反馈

官方服务：

资源简介：

ClawBench是一个包含153个日常任务、144个实时网站和15个生活类别的数据集，用于评估AI代理完成日常在线任务的能力。

ClawBench is a dataset comprising 153 daily tasks, 144 live websites, and 15 life-related categories, designed to evaluate the capability of AI Agents to complete daily online tasks.

创建时间：

2026-04-10

原始信息汇总

ClawBench 数据集概述

数据集基本信息

数据集名称：ClawBench
数据集地址：https://huggingface.co/datasets/NAIL-Group/ClawBench
项目页面：https://claw-bench.com
相关论文：https://arxiv.org/abs/2604.08523

数据集目的与核心问题

评估AI智能体在真实网站环境中完成日常在线任务的能力。核心研究问题是：AI智能体能否完成日常在线任务？

数据集规模与构成

任务总数：153个日常任务
涉及网站：144个实时网站
任务类别：15个生活类别
精选子集：ClawBench-Lite包含20个任务的精选子集

任务类别分布

类别	任务数量	示例平台
日常生活	21	Uber Eats, DoorDash, Instacart, Zillow, Craigslist
娱乐与爱好	15	Ticketmaster, AMC Theatres, Topgolf, Crunchyroll
创作与初始化	13	Squarespace, Wix, Webflow, Ghost, Substack
评分与投票	10	Trustpilot, G2, Goodreads, RateMyProfessors
旅行	9	Booking.com, Expedia, Airbnb, TripAdvisor
教育与学习	9	Coursera, Udemy, Khan Academy, Duolingo
办公与秘书	9	Google Calendar, Slack, Notion, Trello
美容与个人护理	9	Sephora, Ulta, Glossier
求职与人力资源	8	LinkedIn, Greenhouse, Lever, Workday
宠物与动物护理	8	Chewy, Petco, Rover
个人管理	6	Mint, YNAB, Todoist
购物与商务	6	Amazon, eBay, Etsy, Target
非营利与慈善	6	GoFundMe, DonorsChoose
学术与研究	5	Google Scholar, Semantic Scholar, OpenReview
金融与投资	4	Robinhood, Fidelity, Coinbase
其他	15	自动化、开发与技术、政府、家庭服务、汽车

评估方法

技术架构特点

实时网站：在144个真实网站上进行测试
隔离容器：使用Docker/Podman容器提供隔离环境
请求拦截器：拦截请求以避免实际交易
五层记录：全面记录任务执行过程

五层记录内容

MP4视频录制
PNG屏幕截图
HTTP流量记录
浏览器操作记录
智能体消息记录

评估流程

任务执行：AI智能体在隔离容器中操作Chromium浏览器完成任务
数据收集：通过请求拦截器捕获所有交互数据
结果评估：将智能体轨迹与人类参考轨迹进行对比

评估标准

使用基于代理的评估方法（agentic evaluation）
评估标准详见eval/agentic_eval.md
不依赖URL模式匹配，而是通过多维度标准判断任务完成情况

实验结果

模型性能排名（成功率%）

排名	模型	总体	日常生活	金融	工作	开发	学术	旅行	社交	宠物
1	Claude Sonnet 4.6	33.3	44.2	50.0	19.0	11.1	50.0	23.1	38.9	18.2
2	GLM-5	24.2	30.8	16.7	38.1	16.7	28.6	0.0	16.7	18.2
3	Gemini 3 Flash	19.0	15.4	33.3	23.8	22.2	28.6	30.8	11.1	0.0
4	Claude Haiku 4.5	18.3	15.4	22.2	19.0	27.8	21.4	7.7	16.7	18.2
5	GPT-5.4	6.5	9.6	0.0	0.0	11.1	7.1	7.7	0.0	9.1
6	Gemini 3.1 Flash Lite	3.3	1.9	0.0	0.0	5.6	14.3	0.0	0.0	9.1

关键发现：最佳模型仅完成了33.3%的任务。

使用方式

快速开始

bash uv tool install clawbench-eval && clawbench

主要功能

交互式TUI：引导式模型和测试用例选择
单任务测试：针对特定模型运行特定任务
批量测试：多模型多任务并发测试
人类参考模式：通过noVNC手动操作浏览器生成参考轨迹

输出结果

任务执行结果保存在./claw-output/<model>/<timestamp>-<task-id>/目录中，包含完整的五层记录数据。

数据集特点

真实性：在真实网站上进行测试，而非模拟环境
安全性：通过请求拦截避免实际交易和账户操作
全面性：五层记录提供完整的任务执行轨迹
可重复性：容器化环境确保实验条件一致
易用性：提供命令行工具和交互式界面

相关资源

教程视频：https://youtube.com 和 https://bilibili.com
演示示例：包含订餐、求职申请等任务演示
完整文档：详见项目仓库中的各个README文件

搜集汇总

数据集介绍

构建方式

在人工智能代理日益融入日常生活的背景下，ClawBench数据集通过精心设计的实验流程构建而成。其构建过程始于从15个生活类别中筛选出153个真实世界任务，涵盖订餐、旅行预订、求职等日常在线活动。每个任务均部署在144个真实网站上，并封装于独立的Docker容器中，容器内集成Chromium浏览器和AI代理运行环境。数据采集阶段通过五层记录系统同步捕获MP4视频、PNG截图、HTTP流量、浏览器操作日志及智能体消息，形成多维度的交互轨迹数据。

使用方法

研究人员可通过多种方式使用该数据集进行智能体评估。最便捷的途径是通过PyPI安装命令行工具，执行单行代码即可启动交互式终端界面，进行模型与测试案例的灵活配置。对于特定任务评估，用户可指定任务编号与模型名称运行独立测试，系统将自动生成包含实时浏览器操作的noVNC访问链接。数据集支持人类参考模式，允许研究者手动完成任务以建立基准轨迹。批量评估功能支持多模型多任务的并发测试，所有输出结果均按照标准化目录结构存储，便于后续的对比分析与可视化呈现。

背景与挑战

背景概述

ClawBench是由NAIL-Group研究团队于2024年提出的一个专注于评估AI智能体在真实网络环境中执行日常任务能力的基准数据集。该数据集旨在解决当前AI智能体在复杂、动态的网页交互场景中表现评估的空白，其核心研究问题聚焦于智能体能否像人类一样完成订餐、旅行预订、求职申请等153项日常在线任务。通过构建覆盖15个生活类别、涉及144个真实网站的多样化任务集合，ClawBench为衡量前沿AI模型的网页操作与多步骤推理能力提供了标准化测试平台，对推动具身智能与自动化代理技术的发展具有重要影响力。

当前挑战

ClawBench所解决的领域挑战在于如何准确评估AI智能体在开放、动态的真实网站环境中执行复杂任务的能力，这超越了传统静态或模拟环境的测试范畴。构建过程中面临多重技术挑战：一是需确保测试的可靠性与安全性，通过Docker容器隔离和请求拦截技术防止对真实网站产生实际影响；二是需设计精细的五层数据记录机制，同步捕获视频、截图、HTTP流量、浏览器操作与智能体消息，以支持后续的细粒度评估；三是需建立超越简单URL匹配的智能评判体系，依赖基于人类参考轨迹的代理评估方法，确保对任务完成质量的准确判断。

常用场景

经典使用场景

在智能体与真实网络环境交互的研究领域，ClawBench数据集以其对153项日常在线任务的系统性覆盖，成为评估AI智能体网页操作能力的经典基准。该数据集通过模拟订餐、旅行预订、求职申请等真实场景，要求智能体在隔离的Docker容器中操作实时网站，并借助五层数据记录机制捕捉交互轨迹，为衡量智能体在复杂、动态网络环境下的任务完成度提供了标准化测试平台。

解决学术问题

ClawBench有效解决了智能体在开放网络环境中泛化能力评估的学术难题。传统基准多局限于静态或模拟环境，难以反映智能体面对真实网站动态内容、多样交互逻辑及意外状况时的实际表现。该数据集通过引入实时网站、多类别任务及基于请求拦截的评估机制，使研究者能够量化智能体在跨领域、长序列操作中的鲁棒性与适应性，推动了具身智能与网络交互研究的范式演进。

实际应用

该数据集的实际应用场景广泛涵盖AI助手开发、自动化流程测试及人机协作系统优化。企业可利用ClawBench评估智能客服在电商平台完成订单、旅行规划工具处理实时预订等任务的可靠性；开发者能借此检验自动化脚本在真实网站中的稳定性，避免因页面结构变动导致的流程中断。同时，其提供的五层记录数据为交互界面设计、用户体验分析提供了细粒度实证依据。

数据集最近研究