ClawGym-Bench

github2026-05-15 更新2026-05-17 收录

下载链接：

https://github.com/ClawGym/ClawGym-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ClawGym-Bench是一个包含200个实例的诊断基准，用于Claw-style agents。每个任务包含用户指令、模拟工作空间资源和任务特定的验证器。其中156个任务使用基于代码的验证，44个任务使用混合验证（结合代码检查和基于规则的判断）。该基准通过难度感知过滤和人工-LLM审查选择，涵盖六个工作空间基础类别：产品与协作、系统与自动化、分析与推理、内容与领域、规划与知识、软件开发。

ClawGym-Bench is a diagnostic benchmark containing 200 instances tailored for Claw-style agents. Each task includes user instructions, simulated workspace resources, and task-specific validators. Of these, 156 tasks utilize code-based validation, while 44 tasks adopt hybrid validation that combines code inspection and rule-based judgment. This benchmark was curated via difficulty-aware filtering and human-LLM review, covering six fundamental workspace categories: Products and Collaboration, Systems and Automation, Analysis and Reasoning, Content and Domain, Planning and Knowledge, and Software Development.

创建时间：

2026-05-15

原始信息汇总

ClawGym-Bench 数据集概览

基本信息

ClawGym-Bench 是一个专为 Claw 风格智能体设计的诊断性基准测试集，包含 200 个实例，每个任务均包含用户指令、模拟工作区资源以及任务特定的验证器。

验证方式

代码验证任务：156 个任务（占 78%）使用基于代码的验证。
混合验证任务：44 个任务（占 22%）采用代码检查与规则评估相结合的混合验证方式，其中代码验证权重为 0.7，规则验证权重为 0.3。

任务分类

该基准测试涵盖六大工作区相关类别，任务分布如下：

类别	产品<br>& 协作	系统<br>& 自动化	分析<br>& 推理	内容<br>& 领域	规划<br>& 知识	软件<br>开发
任务数量	44	42	35	28	26	25

数据来源

基准测试数据可通过 Hugging Face 获取。

数据集构建

基准测试通过 难度感知过滤 与 人类-大模型联合审查 进行筛选，确保任务质量与难度分布的合理性。

搜集汇总

数据集介绍

构建方式

ClawGym-Bench是专为Claw风格智能体设计的诊断性基准测试，共包含200个精心构建的实例。每个任务由用户指令、模拟工作空间资源及特定任务的验证器三部分组成。在构建过程中，研究者采用了难度感知过滤与人类-大语言模型联合审查的策略，确保任务的代表性与挑战性。156个任务采用基于代码的验证，而44个任务则采用代码检查与量规判断相结合的混合验证方式，混合评分中代码验证权重为0.7，量规验证权重为0.3。数据集覆盖六个工作空间导向的类别，包括产品与协作、系统与自动化、分析与推理、内容与领域、规划与知识以及软件开发，各类别任务数从25到44不等。

特点

ClawGym-Bench具备多项突出特点。其任务设计紧密结合真实工作空间场景，涵盖多领域、多层次的能力评估，从代码编写到逻辑推理，从系统管理到内容创作，全面衡量智能体的实用性能。难度感知过滤机制确保各难度级别的任务均衡分布，避免了简单或冗余样本的干扰。混合验证策略尤为独特，通过代码自动检查与人工量规判断的结合，既保证了评估的客观性，又兼顾了主观任务的灵活性。数据集的公开托管于Hugging Face平台，便于研究者直接获取与复现实验结果。

使用方法

使用ClawGym-Bench进行评估时，需按步操作。首先安装OpenClaw框架，执行命令行指令完成安装。随后在OpenClaw中配置待评估模型，若使用本地模型，可通过sglang或vllm进行服务化部署。最后设置评估参数并运行脚本，数据文件位于data/benchmark_data.jsonl。需注意的是，代码检查器存在于输入文件的reward/test.py路径下，但在任务执行期间不暴露于工作空间，仅在模型完成任务后进行事后评估，从而有效防止奖励黑客攻击。完整的评估脚本位于evaluation/localclawbench目录，一键执行即可获取智能体在各任务上的表现结果。

背景与挑战

背景概述

在大语言模型驱动的智能体研究领域，如何精准评估其工具调用与任务执行能力始终是核心挑战。ClawGym-Bench数据集由中国人民大学AIBOX实验室于2024年创建，专注于评测Claw风格智能体的诊断性能。该基准包含200个精心设计的实例，覆盖产品协作、系统自动化、分析推理、内容生成、规划知识与软件开发六大工作场景。通过引入难度感知筛选与人类-LLM联合评审机制，数据集确保了任务质量的可靠性。其创新性地采用代码验证与基于量规的混合评估方法，为智能体能力诊断提供了多维度的量化指标，对推动自主智能体评测标准化具有重要参考价值。

当前挑战

ClawGym-Bench面临的核心挑战在于解决Claw风格智能体在复杂工作场景中的通用能力评估难题。领域挑战包括：1）如何跨越六大异质类别任务（如产品协作与软件开发的差异显著）构建统一的诊断框架；2）需应对混合验证机制中代码检查与量规评判的权重平衡（0.7与0.3的固定配比可能不适用于所有任务类型）。构建挑战则体现在：1）200个实例需通过难度感知筛选与人工-LLM双审保证质量，但此过程存在主观偏差与耗时长的问题；2）代码验证器在任务执行中未暴露给模型以避免奖励破解，却增加了事后评估设计的复杂性。

常用场景

经典使用场景

在人工智能与机器人操作领域，ClawGym-Bench作为Claw风格智能体的诊断性基准测试，涵盖200个精心设计的任务实例。每个任务包含用户指令、仿真工作空间资源及专用验证器，广泛应用于评估智能体在复杂工作空间中的任务执行能力。该基准通过难度感知过滤与人类-语言模型联合审核构建，覆盖生产与协作、系统与自动化、分析与推理、内容与领域、规划与知识、软件开发六大工作空间依赖类别，为研究者提供了标准化、多维度的性能评估框架，尤其适合测试代码生成与混合验证机制下的智能体行为。

衍生相关工作

ClawGym-Bench的提出催生了多个方向的衍生研究。一方面，研究者基于其混合验证框架开发了更复杂的工作空间感知智能体架构，如将多模态输入与代码执行反馈深度融合的增强型Claw智能体。另一方面，其难度过滤方法被借鉴用于构建面向特定领域（如医疗数据分析、金融自动化）的专用基准。此外，基于ClawGym-Bench的公开排行榜（OpenClaw）促进了智能体性能的持续对标与透明竞争，激发了关于鲁棒性评估、奖励设计及人机协作验证机制的深入探讨，形成了围绕工作空间接地基准的研究生态。

数据集最近研究