WildClawBench

github2026-03-26 更新2026-03-28 收录

下载链接：

https://github.com/InternLM/WildClawBench

下载链接

链接失效反馈

官方服务：

资源简介：

WildClawBench是一个AI代理基准测试，测试AI代理是否能够在没有人工干预的情况下完成实际工作。它包含60个原创任务，涵盖多步骤工具编排、错误恢复、自主规划、视频理解、图像生成、跨模态合成、复杂工作流、编码、安全等多个方面。任务在真实的OpenClaw环境中运行，具有可重复性和隔离性。

WildClawBench is an AI Agent benchmark that evaluates whether AI Agents can complete real-world tasks without human intervention. It includes 60 original tasks covering multiple aspects such as multi-step tool orchestration, error recovery, autonomous planning, video understanding, image generation, cross-modal synthesis, complex workflow, coding, security and more. These tasks run in a real OpenClaw environment, featuring reproducibility and isolation.

创建时间：

2026-03-23

原始信息汇总

WildClawBench 数据集概述

数据集基本信息

数据集名称：WildClawBench
核心定位：一个用于评估AI智能体的、硬核、实用、端到端的基准测试，旨在测试智能体在真实环境中完成实际工作的能力。
评估环境：基于真实的、开源的个人AI助手 OpenClaw 环境，使用真实的工具（浏览器、bash、文件系统、电子邮件、日历）。
任务数量：60个原创任务。
难度水平：当前所有前沿模型的得分均低于0.6，表明任务具有高难度。

核心测试维度

维度	测试内容	挑战点
🔗 自主性	多步骤工具编排、错误恢复、自主规划	需串联10-60+次工具调用，在服务失败时适应，并自主决定“做什么”而不仅仅是“怎么做”。
🎥 多模态	视频理解、图像生成、跨模态合成	例如：追踪45分钟比赛视频中的事件并剪辑精确集锦；对12张服装照片分类，组合4套风格化穿搭，并为每套生成全身模特图。
🧵 长视野	跨越10-20分钟实际执行时间的复杂工作流	例如：通过多轮电子邮件协商会议时间；爬取、分类并总结50+篇学术论文。
💻 编程	阅读无文档代码库、调试、生成可运行程序	例如：仅通过源代码阅读无文档代码库、安装依赖并编写可运行的推理脚本；通过生成像素级精确的解决方案解决视觉谜题。
🛡️ 安全性	提示注入防御、凭证泄露检测、有害内容拒绝	例如：有害指令被深藏在看似正常的文档中；API密钥散落在大型git历史记录中。

任务分类

60个任务分布在6个类别中，涵盖中英文：

类别	任务数量	示例任务	核心挑战
生产力流程	10	ArXiv论文摘要、PDF批量分类、日历调度、维基百科传记、LaTeX表格提取	信息综合、多源聚合、结构化输出
代码智能	12	从源码实现SAM3推理、视觉谜题解决（拼图、连线、像素连接）、基准复现、学术主页生成	无文档代码库理解、像素级视觉推理、端到端代码生成
社交互动	6	多轮会议协商、聊天动作提取、升级路由、跨部门更新	多轮沟通、API编排、上下文跟踪
搜索与检索	11	矛盾信息解决、财务数据提取、模糊仓库搜索	网络搜索与本地数据协调、多约束满足、来源验证
创意合成	11	带视频剪辑的足球比赛报告、视频英中配音、论文转海报、产品发布视频分析、穿搭转模特图	视频/音频处理、跨模态生成、设计与布局
安全对齐	10	通过文件内容进行提示注入、泄露的API密钥检测、恶意技能注入、错误信息拒绝、文件覆盖预防	对抗鲁棒性、凭证意识、有害内容拒绝

评估与排行榜

评估方法：任务在独立的Docker容器中运行，确保环境、数据和评分代码的一致性。真实答案和评分脚本仅在智能体完成后注入，执行期间不可见，消除了数据泄露风险。
排行榜地址：https://internlm.github.io/WildClawBench/
最新结果（截至2026-03-24）： | 排名 | 模型 | 机构 | 综合得分 | 平均时间 | 平均成本 | | :--- | :--- | :--- | :--- | :--- | :--- | | 🥇 | Claude Opus 4.6 | Anthropic | 51.1% | 508 分钟 | $80.85 | | 🥈 | GPT-5.4 | OpenAI | 48.5% | 350 分钟 | $20.08 | | 🥉 | MiMo V2 Pro | Xiaomi | 40.6% | 459 分钟 | $26.47 | | 4 | Gemini 3.1 Pro | Google DeepMind | 38.4% | 240 分钟 | $18.22 | | 5 | Qwen3.5 397B | Alibaba Cloud | 33.5% | 459 分钟 | $22.33 | | 6 | GLM 5 Turbo | Zhipu AI | 33.4% | 499 分钟 | $14.80 | | 7 | MiniMax M2.7 | MiniMax | 33.0% | 551 分钟 | $7.47 | | 8 | Kimi K2.5 | Moonshot AI | 28.7% | 406 分钟 | $6.73 | | 9 | Step 3.5 Flash | StepFun | 27.7% | 430 分钟 | $6.63 | | 10 | Grok 4.20 Beta | xAI | 19.5% | 94 分钟 | $9.63 |

数据获取与使用

数据集地址：https://huggingface.co/datasets/internlm/WildClawBench
Docker镜像：https://huggingface.co/datasets/internlm/WildClawBench/blob/main/Images/wildclawbench-ubuntu_v1.2.tar
任务数据：https://huggingface.co/datasets/internlm/WildClawBench/tree/main/workspace
详细评估结果：https://drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link
任务模板：tasks/task0_template.md（用于创建新任务）

个人OpenClaw评估

支持用户提交自己训练的OpenClaw智能体（“龙虾”）进行评估和排名，以比较不同技能组合、角色设计和记忆策略的效果。

许可证

许可证类型：MIT
许可证文件：LICENSE

搜集汇总

数据集介绍

构建方式

在人工智能代理评估领域，WildClawBench的构建体现了对真实工作流程的深度模拟。该数据集并非基于模拟环境或改编现有任务，而是精心设计了60项原创任务，覆盖生产力流程、代码智能、社交互动等六大类别。其核心构建原则是在真实的OpenClaw环境中进行端到端评估，每个任务均在独立的Docker容器中运行，确保了环境的完全隔离与可复现性。数据集的构建过程严格避免了数据泄露，其真实答案和评分脚本仅在代理完成执行后才被注入，从而保证了评估的纯净性与公正性。

特点

WildClawBench的突出特点在于其评估的综合性、真实性与挑战性。它超越了传统基准测试对孤立能力的考察，转而聚焦于智能代理在复杂、长视野、多模态真实场景中的整体表现。数据集要求代理能够协调多步骤工具调用、理解视频内容、进行跨模态生成，并完成长达10至20分钟的实际工作流程。其任务设计极具实用性，例如从足球比赛视频中剪辑精彩片段、通过多轮邮件协商会议时间等，这使得当前前沿模型的总体得分均低于0.6，有效区分了不同模型的真实能力水平。

使用方法

使用WildClawBench进行评估，首先需要配置Docker环境并下载其提供的镜像与任务数据。用户需准备必要的API密钥，如OpenRouter和Brave搜索API，并可通过环境变量配置自定义模型端点。评估启动后，系统将在隔离的容器中按类别执行任务，自动记录代理的完整执行轨迹、资源消耗及各项评分。结果以结构化JSON格式输出，便于进行细致的性能分析与横向比较。该框架也支持对用户个人训练的OpenClaw代理（即“龙虾”）进行评估，为个性化智能体的能力测评提供了标准化平台。

背景与挑战

背景概述

在人工智能代理技术迅猛发展的背景下，现有基准测试往往局限于孤立能力的评估，难以全面衡量代理在真实、复杂环境中的端到端工作效能。为此，由上海人工智能实验室（InternLM）主导的研究团队于2024年推出了WildClawBench基准数据集。该数据集旨在通过部署在开源个人AI助手OpenClaw的实时环境中，系统性地评估代理在长时程、多模态、高复杂性任务中的综合表现。其核心研究问题聚焦于探索智能代理能否在无需人工干预的情况下，自主完成从信息理解、工具调用到最终输出的完整工作流程，从而推动通用人工智能代理向实用化、可靠化方向发展。该数据集的建立，为学术界与工业界提供了一个严谨、可复现的评估标准，显著提升了代理能力评测的生态信度与科研价值。

当前挑战

WildClawBench所针对的核心领域挑战在于，如何精准评估智能代理在开放、动态的真实世界场景中解决复杂问题的综合能力。这要求代理不仅需具备强大的多步工具编排与错误恢复能力，还需实现跨模态信息理解与长时程工作流规划。具体而言，数据集构建过程中面临多重技术挑战：其一，需在完全隔离的Docker容器中模拟真实工具栈（如浏览器、文件系统、日历等）的运行环境，确保评估的一致性与可复现性；其二，设计涵盖生产力流程、代码智能、社交交互等六大类别的60项原创任务时，必须平衡任务难度与多样性，避免数据泄露并保证评分脚本的客观性；其三，需实现任务执行与评估的完全解耦，即在代理完成作业后方注入真实答案与评分逻辑，从而杜绝任何形式的测试数据污染。

常用场景

经典使用场景

在人工智能代理评估领域，WildClawBench以其端到端的真实环境测试框架脱颖而出。该数据集最经典的使用场景在于对AI代理进行综合性能力评估，研究者将其部署于真实的OpenClaw环境中，通过60项原创任务检验代理在复杂场景下的表现。这些任务涵盖了从足球比赛视频剪辑到多轮邮件协商的完整工作流，要求代理在无人工干预的情况下自主调用工具、处理多模态信息并完成长时程规划，为评估前沿模型的真实工作能力提供了标准化测试平台。

实际应用

该数据集的实际应用价值体现在对生产环境AI助手的性能优化指导上。企业研发团队可利用WildClawBench评估不同模型在真实工作场景中的表现，例如通过代码库理解、隐私泄露检测等任务检验代理的工程适用性。教育机构可借助其多模态合成任务设计课程项目，训练学生开发具备视频分析、跨模态生成能力的智能系统。安全团队则能利用其对抗性测试模块评估代理在面对提示注入、凭证泄露等威胁时的防御能力，为实际部署提供风险预警。

衍生相关工作

WildClawBench的发布催生了多项相关研究工作的开展。基于其评估框架，研究者开发了针对特定领域的扩展基准，如金融数据分析代理评估系统。其任务设计范式被应用于开源项目PinchBench的技能测试模块改进，促进了工具调用评估的标准化。在模型优化方面，多家机构利用该数据集的反馈迭代其代理架构，特别是针对长时程工作流中的错误恢复机制。数据集提供的完整执行轨迹记录也推动了可解释性研究，使研究者能够分析代理决策链的失效环节。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集