internlm/WildClawBench
收藏Hugging Face2026-05-09 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/internlm/WildClawBench
下载链接
链接失效反馈官方服务:
资源简介:
WildClawBench是一个代理基准测试,旨在测试AI代理是否能够在没有人工干预的情况下完成真实世界的端到端任务。它包含60个原创任务,覆盖6个类别:生产力流、代码智能、社交互动、搜索与检索、创意合成和安全对齐。这些任务在真实的OpenClaw环境中执行,使用真实的工具(如浏览器、bash、文件系统等)。数据集支持英文和中文,提供了Docker镜像和任务数据,确保评估的隔离性和可复现性。
WildClawBench is an agent benchmark that tests whether an AI agent can perform real-world, end-to-end tasks without hand-holding. It includes 60 original tasks across 6 categories: Productivity Flow, Code Intelligence, Social Interaction, Search & Retrieval, Creative Synthesis, and Safety Alignment. Tasks are executed in a live OpenClaw environment with real tools (browser, bash, file system, etc.). The dataset supports English and Chinese and provides Docker images and task data to ensure isolated and reproducible evaluations.
提供机构:
internlm
搜集汇总
数据集介绍

构建方式
在人工智能代理评估领域,WildClawBench的构建采用了高度严谨且贴近实际应用的方法。该数据集并非基于模拟环境或现有基准的改编,而是精心设计了60项原创任务,覆盖生产力流程、代码智能、社交互动、搜索检索、创意合成及安全对齐六大类别。每个任务均在真实的OpenClaw环境中执行,这是一个开源的个人AI助手系统,集成了浏览器、命令行、文件系统、电子邮件和日历等实际工具。为确保评估的公正性与可复现性,所有任务运行于独立的Docker容器中,任务数据与评分脚本仅在代理完成执行后注入,有效避免了数据泄露风险,从而构建出一个既隔离又一致的测试平台。
特点
WildClawBench的显著特点在于其强调端到端的实际工作能力评估,而非传统的模拟测试。数据集通过真实的OpenClaw环境,要求AI代理在无人工干预的情况下完成诸如从足球比赛中剪辑精彩片段、通过多轮邮件协商会议时间、在搜索结果中排查矛盾等复杂任务。这些任务设计硬核且实用,使得当前前沿模型的得分普遍低于0.6,从而确保了评分具有明确的区分度和实际意义。此外,数据集支持中英双语,涵盖视觉问答、图像文本到文本及问答等多种任务类别,为多模态智能体的综合能力提供了全面而深入的测评框架。
使用方法
使用WildClawBench进行评估,需首先在支持Docker的系统环境中进行部署。用户可从HuggingFace仓库下载包含Ubuntu环境、OpenClaw实例及必要工具的Docker镜像压缩包,并通过命令行加载镜像。随后,下载任务数据目录至本地,该目录包含所有60项任务的初始文件与评估材料。评估过程中,每个任务将在独立的容器中运行,代理需在隔离环境中调用真实工具执行指令,最终系统依据注入的评分脚本自动计算性能指标。这一方法保证了评估过程的高度可复现性,使得不同研究团队能在相同条件下对AI代理的实战能力进行客观比较。
背景与挑战
背景概述
随着人工智能代理技术的迅猛发展,评估其在真实、开放环境中的端到端工作能力成为关键研究议题。WildClawBench由上海人工智能实验室(InternLM)团队于2024年主导构建,旨在通过模拟真实用户日常依赖的OpenClaw个人助手环境,系统性地测试AI代理在复杂、多模态任务中的实际表现。该数据集包含60项原创任务,涵盖生产力流程、代码智能、社交互动等六大类别,其核心研究问题聚焦于代理在无人工干预下完成实用、困难工作的综合能力。该基准的推出为前沿模型提供了严格的评估标准,显著推动了具身智能与通用代理研究领域的实证进展。
当前挑战
WildClawBench致力于解决AI代理在真实世界端到端任务执行中的评估难题,其核心挑战在于设计能够全面检验代理多模态理解、工具使用与长期规划能力的复杂任务。具体而言,构建过程面临多重困难:一是需在隔离的Docker环境中精确复现OpenClaw的完整工具链(如浏览器、文件系统),确保评估的可重复性与公平性;二是手工设计60项高难度原创任务,需平衡任务的实用性、多样性与评估的客观性,同时严格防止数据泄露;三是建立跨语言(中英文)与跨模态(文本、图像、视频)的统一评估框架,以全面衡量代理在开放域环境中的鲁棒性与泛化能力。
常用场景
实际应用
在实际应用层面,WildClawBench数据集为开发可靠的个人AI助手提供了关键测试平台。企业可利用该数据集评估代理在真实工作流中的表现,例如自动化处理电子邮件协商、从多源信息中检测矛盾、或为未文档化代码库编写推理脚本。其涵盖的安全对齐任务还能帮助识别代理在隐私泄露和有害内容拒绝方面的漏洞,从而提升产品部署前的安全性和实用性。这些评估结果直接指导了AI助手在办公自动化、内容创作和客户服务等领域的优化与落地。
衍生相关工作
围绕WildClawBench数据集,学术界衍生了一系列经典研究工作。这些工作主要集中于提升代理在复杂环境中的规划能力、多工具协调效率以及跨模态理解精度。例如,基于该数据集的任务设计思路,研究者开发了更精细的代理决策评估框架,并探索了强化学习与模仿学习在端到端任务中的融合策略。同时,该数据集也促进了开源生态中类似基准(如Claw-Eval和PinchBench)的演进,共同推动了智能代理评估标准向更严谨、更实用的方向发展。
以上内容由遇见数据集搜集并总结生成



