WildClawBench
收藏github2026-03-26 更新2026-03-28 收录
下载链接:
https://github.com/InternLM/WildClawBench
下载链接
链接失效反馈官方服务:
资源简介:
WildClawBench是一个AI代理基准测试,测试AI代理是否能够在没有人工干预的情况下完成实际工作。它包含60个原创任务,涵盖多步骤工具编排、错误恢复、自主规划、视频理解、图像生成、跨模态合成、复杂工作流、编码、安全等多个方面。任务在真实的OpenClaw环境中运行,具有可重复性和隔离性。
WildClawBench is an AI Agent benchmark that evaluates whether AI Agents can complete real-world tasks without human intervention. It includes 60 original tasks covering multiple aspects such as multi-step tool orchestration, error recovery, autonomous planning, video understanding, image generation, cross-modal synthesis, complex workflow, coding, security and more. These tasks run in a real OpenClaw environment, featuring reproducibility and isolation.
创建时间:
2026-03-23
原始信息汇总
WildClawBench 数据集概述
数据集基本信息
- 数据集名称:WildClawBench
- 核心定位:一个用于评估AI智能体的、硬核、实用、端到端的基准测试,旨在测试智能体在真实环境中完成实际工作的能力。
- 评估环境:基于真实的、开源的个人AI助手 OpenClaw 环境,使用真实的工具(浏览器、bash、文件系统、电子邮件、日历)。
- 任务数量:60个原创任务。
- 难度水平:当前所有前沿模型的得分均低于0.6,表明任务具有高难度。
核心测试维度
| 维度 | 测试内容 | 挑战点 |
|---|---|---|
| 🔗 自主性 | 多步骤工具编排、错误恢复、自主规划 | 需串联10-60+次工具调用,在服务失败时适应,并自主决定“做什么”而不仅仅是“怎么做”。 |
| 🎥 多模态 | 视频理解、图像生成、跨模态合成 | 例如:追踪45分钟比赛视频中的事件并剪辑精确集锦;对12张服装照片分类,组合4套风格化穿搭,并为每套生成全身模特图。 |
| 🧵 长视野 | 跨越10-20分钟实际执行时间的复杂工作流 | 例如:通过多轮电子邮件协商会议时间;爬取、分类并总结50+篇学术论文。 |
| 💻 编程 | 阅读无文档代码库、调试、生成可运行程序 | 例如:仅通过源代码阅读无文档代码库、安装依赖并编写可运行的推理脚本;通过生成像素级精确的解决方案解决视觉谜题。 |
| 🛡️ 安全性 | 提示注入防御、凭证泄露检测、有害内容拒绝 | 例如:有害指令被深藏在看似正常的文档中;API密钥散落在大型git历史记录中。 |
任务分类
60个任务分布在6个类别中,涵盖中英文:
| 类别 | 任务数量 | 示例任务 | 核心挑战 |
|---|---|---|---|
| 生产力流程 | 10 | ArXiv论文摘要、PDF批量分类、日历调度、维基百科传记、LaTeX表格提取 | 信息综合、多源聚合、结构化输出 |
| 代码智能 | 12 | 从源码实现SAM3推理、视觉谜题解决(拼图、连线、像素连接)、基准复现、学术主页生成 | 无文档代码库理解、像素级视觉推理、端到端代码生成 |
| 社交互动 | 6 | 多轮会议协商、聊天动作提取、升级路由、跨部门更新 | 多轮沟通、API编排、上下文跟踪 |
| 搜索与检索 | 11 | 矛盾信息解决、财务数据提取、模糊仓库搜索 | 网络搜索与本地数据协调、多约束满足、来源验证 |
| 创意合成 | 11 | 带视频剪辑的足球比赛报告、视频英中配音、论文转海报、产品发布视频分析、穿搭转模特图 | 视频/音频处理、跨模态生成、设计与布局 |
| 安全对齐 | 10 | 通过文件内容进行提示注入、泄露的API密钥检测、恶意技能注入、错误信息拒绝、文件覆盖预防 | 对抗鲁棒性、凭证意识、有害内容拒绝 |
评估与排行榜
- 评估方法:任务在独立的Docker容器中运行,确保环境、数据和评分代码的一致性。真实答案和评分脚本仅在智能体完成后注入,执行期间不可见,消除了数据泄露风险。
- 排行榜地址:https://internlm.github.io/WildClawBench/
- 最新结果(截至2026-03-24): | 排名 | 模型 | 机构 | 综合得分 | 平均时间 | 平均成本 | | :--- | :--- | :--- | :--- | :--- | :--- | | 🥇 | Claude Opus 4.6 | Anthropic | 51.1% | 508 分钟 | $80.85 | | 🥈 | GPT-5.4 | OpenAI | 48.5% | 350 分钟 | $20.08 | | 🥉 | MiMo V2 Pro | Xiaomi | 40.6% | 459 分钟 | $26.47 | | 4 | Gemini 3.1 Pro | Google DeepMind | 38.4% | 240 分钟 | $18.22 | | 5 | Qwen3.5 397B | Alibaba Cloud | 33.5% | 459 分钟 | $22.33 | | 6 | GLM 5 Turbo | Zhipu AI | 33.4% | 499 分钟 | $14.80 | | 7 | MiniMax M2.7 | MiniMax | 33.0% | 551 分钟 | $7.47 | | 8 | Kimi K2.5 | Moonshot AI | 28.7% | 406 分钟 | $6.73 | | 9 | Step 3.5 Flash | StepFun | 27.7% | 430 分钟 | $6.63 | | 10 | Grok 4.20 Beta | xAI | 19.5% | 94 分钟 | $9.63 |
数据获取与使用
- 数据集地址:https://huggingface.co/datasets/internlm/WildClawBench
- Docker镜像:https://huggingface.co/datasets/internlm/WildClawBench/blob/main/Images/wildclawbench-ubuntu_v1.2.tar
- 任务数据:https://huggingface.co/datasets/internlm/WildClawBench/tree/main/workspace
- 详细评估结果:https://drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link
- 任务模板:
tasks/task0_template.md(用于创建新任务)
个人OpenClaw评估
支持用户提交自己训练的OpenClaw智能体(“龙虾”)进行评估和排名,以比较不同技能组合、角色设计和记忆策略的效果。
许可证
- 许可证类型:MIT
- 许可证文件:
LICENSE
搜集汇总
数据集介绍

构建方式
在人工智能代理评估领域,WildClawBench的构建体现了对真实工作流程的深度模拟。该数据集并非基于模拟环境或改编现有任务,而是精心设计了60项原创任务,覆盖生产力流程、代码智能、社交互动等六大类别。其核心构建原则是在真实的OpenClaw环境中进行端到端评估,每个任务均在独立的Docker容器中运行,确保了环境的完全隔离与可复现性。数据集的构建过程严格避免了数据泄露,其真实答案和评分脚本仅在代理完成执行后才被注入,从而保证了评估的纯净性与公正性。
特点
WildClawBench的突出特点在于其评估的综合性、真实性与挑战性。它超越了传统基准测试对孤立能力的考察,转而聚焦于智能代理在复杂、长视野、多模态真实场景中的整体表现。数据集要求代理能够协调多步骤工具调用、理解视频内容、进行跨模态生成,并完成长达10至20分钟的实际工作流程。其任务设计极具实用性,例如从足球比赛视频中剪辑精彩片段、通过多轮邮件协商会议时间等,这使得当前前沿模型的总体得分均低于0.6,有效区分了不同模型的真实能力水平。
使用方法
使用WildClawBench进行评估,首先需要配置Docker环境并下载其提供的镜像与任务数据。用户需准备必要的API密钥,如OpenRouter和Brave搜索API,并可通过环境变量配置自定义模型端点。评估启动后,系统将在隔离的容器中按类别执行任务,自动记录代理的完整执行轨迹、资源消耗及各项评分。结果以结构化JSON格式输出,便于进行细致的性能分析与横向比较。该框架也支持对用户个人训练的OpenClaw代理(即“龙虾”)进行评估,为个性化智能体的能力测评提供了标准化平台。
背景与挑战
背景概述
在人工智能代理技术迅猛发展的背景下,现有基准测试往往局限于孤立能力的评估,难以全面衡量代理在真实、复杂环境中的端到端工作效能。为此,由上海人工智能实验室(InternLM)主导的研究团队于2024年推出了WildClawBench基准数据集。该数据集旨在通过部署在开源个人AI助手OpenClaw的实时环境中,系统性地评估代理在长时程、多模态、高复杂性任务中的综合表现。其核心研究问题聚焦于探索智能代理能否在无需人工干预的情况下,自主完成从信息理解、工具调用到最终输出的完整工作流程,从而推动通用人工智能代理向实用化、可靠化方向发展。该数据集的建立,为学术界与工业界提供了一个严谨、可复现的评估标准,显著提升了代理能力评测的生态信度与科研价值。
当前挑战
WildClawBench所针对的核心领域挑战在于,如何精准评估智能代理在开放、动态的真实世界场景中解决复杂问题的综合能力。这要求代理不仅需具备强大的多步工具编排与错误恢复能力,还需实现跨模态信息理解与长时程工作流规划。具体而言,数据集构建过程中面临多重技术挑战:其一,需在完全隔离的Docker容器中模拟真实工具栈(如浏览器、文件系统、日历等)的运行环境,确保评估的一致性与可复现性;其二,设计涵盖生产力流程、代码智能、社交交互等六大类别的60项原创任务时,必须平衡任务难度与多样性,避免数据泄露并保证评分脚本的客观性;其三,需实现任务执行与评估的完全解耦,即在代理完成作业后方注入真实答案与评分逻辑,从而杜绝任何形式的测试数据污染。
常用场景
经典使用场景
在人工智能代理评估领域,WildClawBench以其端到端的真实环境测试框架脱颖而出。该数据集最经典的使用场景在于对AI代理进行综合性能力评估,研究者将其部署于真实的OpenClaw环境中,通过60项原创任务检验代理在复杂场景下的表现。这些任务涵盖了从足球比赛视频剪辑到多轮邮件协商的完整工作流,要求代理在无人工干预的情况下自主调用工具、处理多模态信息并完成长时程规划,为评估前沿模型的真实工作能力提供了标准化测试平台。
实际应用
该数据集的实际应用价值体现在对生产环境AI助手的性能优化指导上。企业研发团队可利用WildClawBench评估不同模型在真实工作场景中的表现,例如通过代码库理解、隐私泄露检测等任务检验代理的工程适用性。教育机构可借助其多模态合成任务设计课程项目,训练学生开发具备视频分析、跨模态生成能力的智能系统。安全团队则能利用其对抗性测试模块评估代理在面对提示注入、凭证泄露等威胁时的防御能力,为实际部署提供风险预警。
衍生相关工作
WildClawBench的发布催生了多项相关研究工作的开展。基于其评估框架,研究者开发了针对特定领域的扩展基准,如金融数据分析代理评估系统。其任务设计范式被应用于开源项目PinchBench的技能测试模块改进,促进了工具调用评估的标准化。在模型优化方面,多家机构利用该数据集的反馈迭代其代理架构,特别是针对长时程工作流中的错误恢复机制。数据集提供的完整执行轨迹记录也推动了可解释性研究,使研究者能够分析代理决策链的失效环节。
以上内容由遇见数据集搜集并总结生成



