five

WildClawBench

收藏
github2026-03-26 更新2026-03-28 收录
下载链接:
https://github.com/InternLM/WildClawBench
下载链接
链接失效反馈
官方服务:
资源简介:
WildClawBench是一个AI代理基准测试,测试AI代理是否能够在没有人工干预的情况下完成实际工作。它包含60个原创任务,涵盖多步骤工具编排、错误恢复、自主规划、视频理解、图像生成、跨模态合成、复杂工作流、编码、安全等多个方面。任务在真实的OpenClaw环境中运行,具有可重复性和隔离性。

WildClawBench is an AI Agent benchmark that evaluates whether AI Agents can complete real-world tasks without human intervention. It includes 60 original tasks covering multiple aspects such as multi-step tool orchestration, error recovery, autonomous planning, video understanding, image generation, cross-modal synthesis, complex workflow, coding, security and more. These tasks run in a real OpenClaw environment, featuring reproducibility and isolation.
创建时间:
2026-03-23
原始信息汇总

WildClawBench 数据集概述

数据集基本信息

  • 数据集名称:WildClawBench
  • 核心定位:一个用于评估AI智能体的、硬核、实用、端到端的基准测试,旨在测试智能体在真实环境中完成实际工作的能力。
  • 评估环境:基于真实的、开源的个人AI助手 OpenClaw 环境,使用真实的工具(浏览器、bash、文件系统、电子邮件、日历)。
  • 任务数量:60个原创任务。
  • 难度水平:当前所有前沿模型的得分均低于0.6,表明任务具有高难度。

核心测试维度

维度 测试内容 挑战点
🔗 自主性 多步骤工具编排、错误恢复、自主规划 需串联10-60+次工具调用,在服务失败时适应,并自主决定“做什么”而不仅仅是“怎么做”。
🎥 多模态 视频理解、图像生成、跨模态合成 例如:追踪45分钟比赛视频中的事件并剪辑精确集锦;对12张服装照片分类,组合4套风格化穿搭,并为每套生成全身模特图。
🧵 长视野 跨越10-20分钟实际执行时间的复杂工作流 例如:通过多轮电子邮件协商会议时间;爬取、分类并总结50+篇学术论文。
💻 编程 阅读无文档代码库、调试、生成可运行程序 例如:仅通过源代码阅读无文档代码库、安装依赖并编写可运行的推理脚本;通过生成像素级精确的解决方案解决视觉谜题。
🛡️ 安全性 提示注入防御、凭证泄露检测、有害内容拒绝 例如:有害指令被深藏在看似正常的文档中;API密钥散落在大型git历史记录中。

任务分类

60个任务分布在6个类别中,涵盖中英文:

类别 任务数量 示例任务 核心挑战
生产力流程 10 ArXiv论文摘要、PDF批量分类、日历调度、维基百科传记、LaTeX表格提取 信息综合、多源聚合、结构化输出
代码智能 12 从源码实现SAM3推理、视觉谜题解决(拼图、连线、像素连接)、基准复现、学术主页生成 无文档代码库理解、像素级视觉推理、端到端代码生成
社交互动 6 多轮会议协商、聊天动作提取、升级路由、跨部门更新 多轮沟通、API编排、上下文跟踪
搜索与检索 11 矛盾信息解决、财务数据提取、模糊仓库搜索 网络搜索与本地数据协调、多约束满足、来源验证
创意合成 11 带视频剪辑的足球比赛报告、视频英中配音、论文转海报、产品发布视频分析、穿搭转模特图 视频/音频处理、跨模态生成、设计与布局
安全对齐 10 通过文件内容进行提示注入、泄露的API密钥检测、恶意技能注入、错误信息拒绝、文件覆盖预防 对抗鲁棒性、凭证意识、有害内容拒绝

评估与排行榜

  • 评估方法:任务在独立的Docker容器中运行,确保环境、数据和评分代码的一致性。真实答案和评分脚本仅在智能体完成后注入,执行期间不可见,消除了数据泄露风险。
  • 排行榜地址:https://internlm.github.io/WildClawBench/
  • 最新结果(截至2026-03-24): | 排名 | 模型 | 机构 | 综合得分 | 平均时间 | 平均成本 | | :--- | :--- | :--- | :--- | :--- | :--- | | 🥇 | Claude Opus 4.6 | Anthropic | 51.1% | 508 分钟 | $80.85 | | 🥈 | GPT-5.4 | OpenAI | 48.5% | 350 分钟 | $20.08 | | 🥉 | MiMo V2 Pro | Xiaomi | 40.6% | 459 分钟 | $26.47 | | 4 | Gemini 3.1 Pro | Google DeepMind | 38.4% | 240 分钟 | $18.22 | | 5 | Qwen3.5 397B | Alibaba Cloud | 33.5% | 459 分钟 | $22.33 | | 6 | GLM 5 Turbo | Zhipu AI | 33.4% | 499 分钟 | $14.80 | | 7 | MiniMax M2.7 | MiniMax | 33.0% | 551 分钟 | $7.47 | | 8 | Kimi K2.5 | Moonshot AI | 28.7% | 406 分钟 | $6.73 | | 9 | Step 3.5 Flash | StepFun | 27.7% | 430 分钟 | $6.63 | | 10 | Grok 4.20 Beta | xAI | 19.5% | 94 分钟 | $9.63 |

数据获取与使用

  • 数据集地址:https://huggingface.co/datasets/internlm/WildClawBench
  • Docker镜像:https://huggingface.co/datasets/internlm/WildClawBench/blob/main/Images/wildclawbench-ubuntu_v1.2.tar
  • 任务数据:https://huggingface.co/datasets/internlm/WildClawBench/tree/main/workspace
  • 详细评估结果:https://drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link
  • 任务模板tasks/task0_template.md(用于创建新任务)

个人OpenClaw评估

支持用户提交自己训练的OpenClaw智能体(“龙虾”)进行评估和排名,以比较不同技能组合、角色设计和记忆策略的效果。

许可证

  • 许可证类型:MIT
  • 许可证文件LICENSE
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能代理评估领域,WildClawBench的构建体现了对真实工作流程的深度模拟。该数据集并非基于模拟环境或改编现有任务,而是精心设计了60项原创任务,覆盖生产力流程、代码智能、社交互动等六大类别。其核心构建原则是在真实的OpenClaw环境中进行端到端评估,每个任务均在独立的Docker容器中运行,确保了环境的完全隔离与可复现性。数据集的构建过程严格避免了数据泄露,其真实答案和评分脚本仅在代理完成执行后才被注入,从而保证了评估的纯净性与公正性。
特点
WildClawBench的突出特点在于其评估的综合性、真实性与挑战性。它超越了传统基准测试对孤立能力的考察,转而聚焦于智能代理在复杂、长视野、多模态真实场景中的整体表现。数据集要求代理能够协调多步骤工具调用、理解视频内容、进行跨模态生成,并完成长达10至20分钟的实际工作流程。其任务设计极具实用性,例如从足球比赛视频中剪辑精彩片段、通过多轮邮件协商会议时间等,这使得当前前沿模型的总体得分均低于0.6,有效区分了不同模型的真实能力水平。
使用方法
使用WildClawBench进行评估,首先需要配置Docker环境并下载其提供的镜像与任务数据。用户需准备必要的API密钥,如OpenRouter和Brave搜索API,并可通过环境变量配置自定义模型端点。评估启动后,系统将在隔离的容器中按类别执行任务,自动记录代理的完整执行轨迹、资源消耗及各项评分。结果以结构化JSON格式输出,便于进行细致的性能分析与横向比较。该框架也支持对用户个人训练的OpenClaw代理(即“龙虾”)进行评估,为个性化智能体的能力测评提供了标准化平台。
背景与挑战
背景概述
在人工智能代理技术迅猛发展的背景下,现有基准测试往往局限于孤立能力的评估,难以全面衡量代理在真实、复杂环境中的端到端工作效能。为此,由上海人工智能实验室(InternLM)主导的研究团队于2024年推出了WildClawBench基准数据集。该数据集旨在通过部署在开源个人AI助手OpenClaw的实时环境中,系统性地评估代理在长时程、多模态、高复杂性任务中的综合表现。其核心研究问题聚焦于探索智能代理能否在无需人工干预的情况下,自主完成从信息理解、工具调用到最终输出的完整工作流程,从而推动通用人工智能代理向实用化、可靠化方向发展。该数据集的建立,为学术界与工业界提供了一个严谨、可复现的评估标准,显著提升了代理能力评测的生态信度与科研价值。
当前挑战
WildClawBench所针对的核心领域挑战在于,如何精准评估智能代理在开放、动态的真实世界场景中解决复杂问题的综合能力。这要求代理不仅需具备强大的多步工具编排与错误恢复能力,还需实现跨模态信息理解与长时程工作流规划。具体而言,数据集构建过程中面临多重技术挑战:其一,需在完全隔离的Docker容器中模拟真实工具栈(如浏览器、文件系统、日历等)的运行环境,确保评估的一致性与可复现性;其二,设计涵盖生产力流程、代码智能、社交交互等六大类别的60项原创任务时,必须平衡任务难度与多样性,避免数据泄露并保证评分脚本的客观性;其三,需实现任务执行与评估的完全解耦,即在代理完成作业后方注入真实答案与评分逻辑,从而杜绝任何形式的测试数据污染。
常用场景
经典使用场景
在人工智能代理评估领域,WildClawBench以其端到端的真实环境测试框架脱颖而出。该数据集最经典的使用场景在于对AI代理进行综合性能力评估,研究者将其部署于真实的OpenClaw环境中,通过60项原创任务检验代理在复杂场景下的表现。这些任务涵盖了从足球比赛视频剪辑到多轮邮件协商的完整工作流,要求代理在无人工干预的情况下自主调用工具、处理多模态信息并完成长时程规划,为评估前沿模型的真实工作能力提供了标准化测试平台。
实际应用
该数据集的实际应用价值体现在对生产环境AI助手的性能优化指导上。企业研发团队可利用WildClawBench评估不同模型在真实工作场景中的表现,例如通过代码库理解、隐私泄露检测等任务检验代理的工程适用性。教育机构可借助其多模态合成任务设计课程项目,训练学生开发具备视频分析、跨模态生成能力的智能系统。安全团队则能利用其对抗性测试模块评估代理在面对提示注入、凭证泄露等威胁时的防御能力,为实际部署提供风险预警。
衍生相关工作
WildClawBench的发布催生了多项相关研究工作的开展。基于其评估框架,研究者开发了针对特定领域的扩展基准,如金融数据分析代理评估系统。其任务设计范式被应用于开源项目PinchBench的技能测试模块改进,促进了工具调用评估的标准化。在模型优化方面,多家机构利用该数据集的反馈迭代其代理架构,特别是针对长时程工作流中的错误恢复机制。数据集提供的完整执行轨迹记录也推动了可解释性研究,使研究者能够分析代理决策链的失效环节。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作