WildClawBench

Name: WildClawBench
Creator: 上海人工智能实验室; 香港中文大学; 复旦大学; 中国科学技术大学; 上海交通大学; 清华大学; 上海创新研究院; 浙江大学; 南洋理工大学
Published: 2026-05-12 01:49:43
License: 暂无描述

arXiv2026-05-12 更新2026-05-13 收录

下载链接：

https://github.com/internlm/WildClawBench

下载链接

链接失效反馈

官方服务：

资源简介：

WildClawBench是由上海人工智能实验室等机构联合创建的一个面向现实世界、长视野智能体评估的基准测试数据集。该数据集包含60项人工精心设计的双语多模态任务，涵盖生产力流程、代码智能、社交互动等六大主题类别，平均每项任务耗时约8分钟，涉及超过20次工具调用，数据来源于真实世界的工作流模拟。其创建过程通过四阶段人工与模型协同的筛选流程，确保了任务的生态效度和可审计性。该数据集主要应用于评估大型语言和视觉语言模型在原生运行时环境中的长序列任务执行能力，旨在解决现有智能体基准在真实部署条件、复杂工具使用和轨迹级审计方面的不足，推动可靠、安全的人工智能代理系统发展。

WildClawBench is a benchmark dataset for evaluating real-world, long-horizon AI agents, co-created by Shanghai AI Laboratory and other institutions. This dataset includes 60 manually curated bilingual multimodal tasks covering six major thematic categories such as productivity workflows, code intelligence, social interaction and others. Each task takes approximately 8 minutes on average, involves over 20 tool invocations, and the dataset is sourced from real-world workflow simulations. Its development adopts a four-stage collaborative screening process combining humans and models, ensuring the ecological validity and auditability of the tasks. This dataset is primarily used to evaluate the long-sequence task execution capabilities of large language and vision-language models in native runtime environments. It aims to address the limitations of existing AI agent benchmarks in terms of real-world deployment conditions, complex tool usage and trace-level auditing, and promote the development of reliable and secure AI agent systems.

提供机构：

上海人工智能实验室; 香港中文大学; 复旦大学; 中国科学技术大学; 上海交通大学; 清华大学; 上海创新研究院; 浙江大学; 南洋理工大学

创建时间：

2026-05-12

原始信息汇总

WildClawBench 数据集概述

数据集简介

WildClawBench 是一个面向 AI 智能体的评估基准，专注于测试智能体在真实环境中的端到端任务执行能力。智能体在一个实时的 OpenClaw 环境中执行任务，该环境是一个开源的个人 AI 助手平台。

核心特点

实际环境，非模拟：任务在实时 OpenClaw 环境中运行，使用真实工具（浏览器、bash、文件系统、电子邮件、日历）。
60个原创任务：全部手工设计，专门用于测试真实世界的智能体能力。
四个智能体框架：OpenClaw、Claude Code、Codex CLI 和 Hermes Agent 执行相同的 60 个任务，统一评分标准。
可复现且隔离：每个任务在独立的 Docker 容器中运行，数据集和环境完全隔离，防止数据泄露。

任务分类

类别	数量	示例任务	核心挑战
Productivity Flow（生产力流程）	10	ArXiv 论文摘要、PDF 批量分类、日历日程安排、维基百科传记、LaTeX 表格提取	信息综合、多源聚合、结构化输出
Code Intelligence（代码智能）	12	从源码推理 SAM3、视觉谜题解决（拼图、连点、连线）、基准复现、学术主页生成	无文档代码理解、像素级视觉推理、端到端代码生成
Social Interaction（社交互动）	6	多轮会议协商、聊天动作提取、升级路由、跨部门更新	多轮对话、API 编排、上下文追踪
Search & Retrieval（搜索与检索）	11	冲突信息解决、金融数据提取、模糊仓库搜索	网络搜索与本地数据整合、多约束满足、来源验证
Creative Synthesis（创意合成）	11	足球比赛视频亮点剪辑、视频英转中配音、论文转海报、产品发布视频分析、穿搭生成模型图	视频/音频处理、跨模态生成、设计与布局
Safety Alignment（安全对齐）	10	通过文件内容进行提示注入、泄露 API 密钥检测、恶意技能注入、错误信息拒绝、文件覆写预防	对抗鲁棒性、凭证感知、有害内容拒绝

测试能力维度

🔗 自主性（Agency）：多步工具编排、错误恢复、自主规划。智能体需串联 10-60+ 次工具调用，在服务失败时进行调整，并自主决策执行内容。
🎥 多模态（Multimodal）：视频理解、图像生成、跨模态合成。例如从 45 分钟比赛视频中追踪事件并剪辑高光片段；分类 12 张服装照片、组合 4 套造型并生成全身模型图像。
🧵 长周期（Long-Horizon）：复杂工作流，执行时间 10-20 分钟。例如通过多轮邮件协商会议时间；爬取、分类并总结 50+ 篇学术论文。
💻 编码（Coding）：阅读无文档代码库、调试、生成可运行程序。例如读取无文档代码库、安装依赖、仅从源码编写推理脚本；通过生成像素级精确解决方案解决视觉谜题。
🛡️ 安全（Safety）：提示注入防御、凭证泄露检测、有害内容拒绝。有害指令隐藏于正常文档中；API 密钥散布在大型 Git 历史中。

排行榜

模型排行榜（OpenClaw 框架）

排名	模型	机构	总体得分	总用时	总成本
🥇	Claude Opus 4.7	Anthropic	62.2%	328 min	$77.40
🥈	GPT-5.5	OpenAI	58.2%	262 min	$37.80
🥉	Claude Opus 4.6	Anthropic	51.6%	508 min	$81.00
4	GPT-5.4	OpenAI	50.3%	350 min	$19.80
5	GLM 5.1	Zhipu AI	48.2%	515 min	$34.80
6-19	其他 14 个模型	多家机构	19.3%-43.7%	94-605 min	$6.60-$81.00

框架对比（部分模型）

GPT-5.4 在 Codex 框架下表现最佳（得分 56.8%），优于 OpenClaw（50.3%）、Claude Code（48.4%）和 Hermes Agent（50.7%）。
GLM 5 在 Hermes Agent 框架下得分最高（46.4%），其他框架得分在 31.0%-42.6% 之间。
MiMo V2 Pro 在 Hermes Agent 框架下得分最高（48.1%），其他框架得分在 29.9%-40.2% 之间。
MiniMax M2.7 在 Hermes Agent 框架下得分最高（37.1%），其他框架得分在 32.0%-35.8% 之间。

数据来源与资源

数据集页面：HuggingFace
技术报告：arXiv 论文和 PDF 报告
交互式排行榜：internlm.github.io/WildClawBench

搜集汇总

数据集介绍

构建方式

WildClawBench的构建遵循一套严谨的四阶段流水线。首先，由八位领域专家依据长程任务、多步工具编排及可验证环境效应三大原则，跨六个类别起草了候选任务。其次，为每项任务构建了包含预期路径与评判标准的参考答案。随后，通过模型预评分执行差异化筛选，仅保留模型间得分差距不小于0.2的任务，并辅以人工对提示、日志及失败案例进行审查，剔除因模糊性或泄露导致的难任务。最后，对通过筛选的任务进行迭代精炼，优化提示、评分逻辑与干扰项，并通过逻辑与可复现性核查，最终产出60项高质量任务。

特点

该基准数据集的核心特点在于其对真实世界、长程任务的原生运行时评估。每项任务平均耗时约8分钟，需要超过20次工具调用，在隔离的Docker容器中运行，并接入真实的命令行工具集，如Shell、浏览器与文件系统，而非模拟服务。数据集合覆盖生产力流、代码智能、社交互动、搜索与检索、创意合成及安全对齐六大主题，包含26项多模态与34项纯文本任务，支持中英双语。其混合评分方案结合了基于规则的确定性检查、环境状态审计与LLM/VLM语义裁决，实现了对任务完成度与运行时行为的全面可审计评估。

使用方法

WildClawBench的使用严格遵循容器化评估框架。评估时，每项任务在独立的Docker容器中初始化，并通过统一的OpenRouter端点接入OpenClaw、Claude Code等多种智能体框架。模型在给定时间预算内自主完成任务，其生成的所有工件、对话轨迹与运行时日志在进程退出后被收集。评分由与任务配对的执行函数完成，该函数聚合确定性规则检查、环境状态审计与语义裁决结果。研究者可通过发布的任务规范、容器化工作空间与评分代码，复现评估流程并开展跨模型与跨框架的性能对比分析。

背景与挑战

背景概述

大型语言模型与视觉语言模型日益成为驱动自主智能体的核心引擎，此类智能体通过命令行界面工具链执行多步骤任务，从代码生成到科学研究，正逐步渗透至人类知识工作的各个角落。然而，现有的大多数智能体评测基准仍局限在合成沙盒环境中，采用短时域任务、模拟服务接口与终态答案校验，难以真实反映智能体在生产级运行时的实际表现。为弥补这一鸿沟，上海人工智能实验室联合香港中文大学、复旦大学、中国科学技术大学、清华大学等顶尖机构的研究团队，于2026年推出了WildClawBench基准测试集。该基准由丁双睿、戴轩朗、邢龙等八位核心研究人员历时两周精心构建，包含60个双语多模态、跨越六大主题的手工撰写任务，每个任务平均耗时约8分钟、需调用20余次真实工具，旨在系统评测智能体在原生运行环境中的长时域规划与跨工具编排能力。

当前挑战

WildClawBench所揭示的挑战具有双重维度。在领域问题层面，当前顶尖模型在本基准上远未饱和——最优模型Claude Opus 4.7仅达62.2%的总体得分，其余模型悉数低于60%，且多模态任务得分显著落后于纯文本任务，表明跨模态工具调用与视觉接地仍是突出的性能瓶颈。更为深层的是，智能体的实际表现深受脚手架选择、工具范式与时间预算等系统级因素的影响：仅切换框架即可使同一模型产生高达18个百分点的性能偏移，延长思考时间反而因挤占环境交互窗口而引发更多超时失败。在基准构建层面，团队面临的核心挑战在于如何兼顾生态效度与可复现性——为60个任务逐一构建可复现的Docker容器、注入真实的命令行工具链、设计融合规则检查、状态审计与大模型裁判的混合评分方案，并确保所有算力资源在智能体进程结束后才加载以避免信息泄露，这一系列工程化要求在技术上构成了显著壁垒。

常用场景

经典使用场景

在智能体评测领域，WildClawBench被广泛用于评估前沿大语言模型与视觉-语言模型在真实、长周期任务中的综合能力。其经典用法是将模型部署于OpenClaw、Claude Code、Codex等实际CLI智能体框架中，赋予其访问真实命令行、文件系统、浏览器、邮件客户端等工具的能力，执行涵盖生产力流程、代码理解、社交交互、信息检索、创意合成与安全对齐六大类别的60项双语多模态任务。每项任务平均耗时约8分钟、需调用超过20次工具，评测方式融合确定性规则检查、环境状态审计与大模型语义裁判，全面考察模型在多步骤编排、工具故障恢复与跨模态推理方面的真实表现。

衍生相关工作

WildClawBench的发布催生了多项重要的衍生研究方向与经典工作。在评测框架层面，其混合验证方法被后续工作如AgentSafetyBench与ToolEmu采纳并扩展，推动了智能体安全性评估的系统化发展。在智能体架构设计上，基于WildClawBench暴露的性能瓶颈，研究者提出了更具鲁棒性的多工具编排策略与时间预算自适应调度算法。在模型优化方面，该基准促进了面向长周期任务的推理效率改进工作，如通过技能增强与工具集定制显著提升特定领域的任务完成率。此外，其双语多模态任务设计为跨语言与跨模态智能体研究提供了标准化测试平台，引发了诸如Code Intelligence与Creative Synthesis类别下的多项针对性模型微调与提示工程优化工作。

数据集最近研究