WildClawBench

Name: WildClawBench
Creator: InternLM
Published: 2026-03-25 13:41:32
License: 暂无描述

Hugging Face2026-03-25 更新2026-03-26 收录

下载链接：

https://huggingface.co/datasets/internlm/WildClawBench

下载链接

链接失效反馈

官方服务：

资源简介：

WildClawBench 是一个用于评估 AI 代理在真实环境中端到端任务执行能力的基准测试数据集。该数据集包含 60 个原创任务，覆盖六个主要类别：生产力流程、代码智能、社交互动、搜索与检索、创意合成和安全对齐。每个任务都设计用于测试 AI 代理在真实工作场景中的实际能力，如信息合成、多源聚合、代码库理解、多轮通信、网络搜索与本地数据协调、视频/音频处理等。数据集提供了一个隔离的 Docker 环境，包含 OpenClaw 实例和所有必要工具，确保任务的可重复性和隔离性。WildClawBench 旨在提供一个硬核、实用的评估平台，当前所有前沿模型的得分均低于 0.6，使得评分具有实际意义。

提供机构：

InternLM

创建时间：

2026-03-24

5,000+

优质数据集

54 个

任务类型

进入经典数据集