Auto-ClawEval

Name: Auto-ClawEval
Creator: 马里兰大学; 加州大学伯克利分校; 加州大学洛杉矶分校; 穆罕默德·本·扎耶德人工智能大学
Published: 2026-04-21 01:36:49
License: 暂无描述

arXiv2026-04-21 更新2026-04-22 收录

下载链接：

https://github.com/xirui-li/ClawEnvKit

下载链接

链接失效反馈

官方服务：

资源简介：

Auto-ClawEval是由ClawEnvKit框架自动生成的第一个大规模爪类智能体评估基准，包含24个语义类别的1040个任务环境。该数据集通过自然语言描述生成结构化任务参数，整合了模拟服务接口和自动化评分配置，其数据来源于框架的流程化合成而非人工标注。创建过程采用三阶段模块化流水线：解析器提取任务要素、生成器构建沙盒环境、验证器确保逻辑一致性，单任务生成成本仅为人工的1/13800。该数据集主要应用于爪类智能体的跨工具链评估和持续学习训练，旨在解决传统人工构建环境存在的多样性不足、迭代滞后等 scalability 瓶颈问题。

Auto-ClawEval is the first large-scale claw agent evaluation benchmark automatically generated by the ClawEnvKit framework, comprising 1,040 task environments across 24 semantic categories. This dataset generates structured task parameters via natural language descriptions, integrates simulated service interfaces and automated scoring configurations, and its data is derived from framework-driven procedural synthesis rather than manual annotation. Its creation follows a three-stage modular pipeline: the parser extracts task elements, the generator builds sandbox environments, and the validator ensures logical consistency. The generation cost per single task is only 1/13,800 of that of manual work. This dataset is primarily used for cross-toolchain evaluation and continual learning training of claw agents, aiming to address scalability bottlenecks such as insufficient diversity and iterative lag in traditional manually constructed environments.

提供机构：

马里兰大学; 加州大学伯克利分校; 加州大学洛杉矶分校; 穆罕默德·本·扎耶德人工智能大学

创建时间：

2026-04-21

原始信息汇总

ClawEnvKit 数据集概述

数据集基本信息

名称: ClawEnvKit
性质: 开源环境生成工具包，用于类爪型智能体（claw-like agents）。
核心功能: 集成了任务生成与评估。支持从自然语言自动生成训练环境，并通过可靠的验证进行评估。
许可证: MIT

主要特性与优势

可扩展性: 支持生成1000+任务，解决了传统人工编写基准任务（每个任务耗时2+小时）无法规模化的问题。
自动化生成: 无需手动编写测试；由LLM根据自然语言请求生成YAML配置文件，固定引擎处理验证。
统一评估框架: 无需为每个任务编写自定义评分代码；提供15种结构化检查类型（14种基于规则+LLM评判）和2项安全检查，可跨所有任务复用。
可靠验证: 基于审计日志进行验证（关注智能体实际行为，而非其声明），避免脆弱的pytest。
连续评分: 提供0.0-1.0的连续评分，并设有安全门控，而非简单的通过/失败二元判断。
部署简化: 无需为每个任务构建Docker镜像；使用一个基础镜像，通过卷挂载任何task.yaml文件。

数据集内容与生成

任务生成: 可从自然语言请求或指定服务自动生成完整的评估环境（包含提示、固定数据、工具、评分标准和安全检查的task.yaml）。
预生成基准数据集: 提供预生成的基准数据集 Auto-ClawEval 及其精简版 Auto-ClawEval-mini，可从HuggingFace下载。
任务范围: 涵盖20个模拟服务，24个类别，包括基于API的任务和文件依赖型任务（终端、OCR、办公QA、数据分析）。
评分导向: 结果导向型评分，混合了40-60%的基于规则检查和40-60%的LLM评判。

评估与集成

支持的智能体: 支持10种评估工具链，涵盖3个集成层级：
- 层级1（原生插件）: OpenClaw
- 层级2（MCP服务器）: Claude Code, NanoClaw, IronClaw, PicoClaw, ZeroClaw
- 层级3（SKILL.md + shell）: CoPaw, NemoClaw, Hermes
评估模式:
- Docker工具链评估: 在Docker容器中运行智能体，使用模拟服务，具备审计日志和轨迹捕获功能。
- 智能体循环评估（无Docker）: 轻量级函数调用循环，本地运行模拟服务，无需Docker。
支持的后端模型: 适用于提供商原生的Anthropic和OpenAI设置，以及通过OpenRouter路由的工具调用模型。

模拟服务

数量: 内置20个模拟服务。
领域: 涵盖电子邮件、日程安排、CRM、金融、库存、OCR、PDF和实时网络任务。
特性: 每个服务都支持审计日志、重置端点以及可选的错误注入，并且可以组合成跨服务基准测试。
扩展性: 可以从自然语言自动生成新的模拟服务（例如：clawenvkit service create --request "Slack messaging"）。

评分体系

最终分数结合了加权任务完成度、在注入故障下的鲁棒性以及作为硬性门控的安全性。

最终分数 = 安全性 × (0.80 × 完成度 + 0.20 × 鲁棒性)

获取与使用

安装: 通过Git克隆仓库并使用pip install -e ".[all]"进行安装。
快速生成任务: 使用CLI命令，例如clawenvkit generate --request "测试智能体能否对电子邮件进行分类并标记紧急邮件"。
使用预生成数据集: 从HuggingFace下载Auto-ClawEval数据集。
运行评估: 可使用提供的脚本在Docker工具链或智能体循环模式下对数据集进行评估。

相关资源

代码仓库: https://github.com/xirui-li/ClawEnvKit
PyPI包: https://pypi.org/project/clawenvkit/
预生成数据集（HuggingFace）:
- Auto-ClawEval: https://huggingface.co/datasets/AIcell/Auto-ClawEval
- Auto-ClawEval-mini: https://huggingface.co/datasets/AIcell/Auto-ClawEval-mini
论文: https://arxiv.org/abs/2604.18543

搜集汇总

数据集介绍

构建方式

在智能体评估领域，传统环境构建依赖耗时的人工标注，难以适应快速发展的需求。Auto-ClawEval通过ClawEnvKit自动化流水线实现高效生成，该流水线包含三个核心模块：解析器将自然语言描述转化为结构化参数，生成器基于参数创建任务规范、工具接口与评分配置，验证器则确保生成环境的可行性、多样性与内部一致性。整个流程以极低成本批量产出经过验证的环境实例，显著提升了构建效率与规模。

使用方法

研究人员可利用Auto-ClawEval对爪型智能体进行跨框架、跨模型的系统性评估。每个环境提供明确的任务描述、可用工具集及自动化评分功能，支持在隔离容器中执行多轮交互并记录审计日志。评估维度涵盖安全性、任务完成度与鲁棒性，用户既可基于预生成环境开展大规模基准测试，也能通过自然语言接口按需生成特定能力评估场景，从而灵活适应不断演进的智能体能力与任务需求。

背景与挑战

背景概述

随着大型语言模型（LLM）代理在真实世界环境中日益广泛地部署，以处理复杂、多步骤任务，对训练和评估环境的需求急剧增长。爪式代理（claw-like agents）作为一类能够通过原生工具调用与外部服务交互的开放源代码平台，其快速发展标志着从被动语言接口到嵌入式自主行动者的范式转变。然而，传统上为这类代理构建环境依赖于手动、人力密集型的过程，难以规模化，严重制约了训练与评估的扩展能力。在此背景下，由马里兰大学、加州大学伯克利分校、洛杉矶分校及穆罕默德·本·扎耶德人工智能大学的研究人员于2026年4月提出的Auto-ClawEval数据集应运而生。该数据集基于ClawEnvKit自动化生成管道构建，旨在通过自然语言描述即时生成多样化、经过验证的环境，从而创建首个大规模、跨工具、跨模型基准，涵盖1,040个环境与24个语义类别，显著降低了环境构建成本并提升了评估的灵活性与覆盖范围。

当前挑战

Auto-ClawEval数据集致力于解决爪式代理在真实场景中评估与训练的规模化挑战，其核心在于自动化生成高保真、可验证的任务环境。所面临的领域问题挑战包括：如何确保生成环境的多样性与现实性，以全面评估代理在多服务协调、长时程任务及动态信息处理中的能力；同时，需克服静态基准易受数据泄露与记忆化影响的问题，实现持续、用户驱动的实时评估。在构建过程中，挑战主要集中于自动化管道的设计与验证：首先，解析模块需准确从自然语言中提取结构化参数，避免语义歧义；其次，生成模块必须创建逻辑一致、工具接口完备且评分配置合理的任务规范；最后，验证模块需强制执行可行性、多样性、结构有效性及内部一致性，确保生成环境的质量与人类撰写基准相当甚至更优，同时维持极低的构建成本与时间开销。

常用场景

经典使用场景

在人工智能代理评估领域，Auto-ClawEval数据集作为首个大规模、跨工具链的基准测试平台，其经典使用场景聚焦于对爪型代理（claw-like agents）进行系统性能力评估。该数据集通过自动化流程生成覆盖24个语义类别、共计1040个任务环境，为研究者提供了标准化的测试框架，用以衡量代理在模拟真实工作流中的工具调用、多步骤协调及错误恢复能力。其核心价值在于实现了评估过程的可扩展性与可重复性，使得不同模型家族与代理框架能够在统一且隔离的沙箱环境中进行公平比较，从而推动代理智能体的技术演进。

解决学术问题

Auto-ClawEval数据集有效解决了人工智能代理研究中的若干关键学术问题。传统上，代理环境的构建依赖人工标注，成本高昂且难以扩展，导致评估范围受限且易受数据泄露影响。该数据集通过ClawEnvKit自动化流水线，将环境生成成本降低至人工的1/13800，同时保证了任务在有效性、连贯性与清晰度上达到或超越人工标注水平。这不仅突破了评估规模与多样性的瓶颈，还为研究社区提供了首个支持跨工具链、跨模型的大规模基准，使得对代理在长尾任务、鲁棒性及安全约束下的性能分析成为可能，为代理能力的科学度量奠定了坚实基础。

实际应用

在实际应用层面，Auto-ClawEval数据集为人工智能代理的部署与优化提供了关键支撑。企业及开发者可利用其生成的定制化任务环境，对代理在特定业务场景（如邮件管理、日程协调、文件处理等）中的表现进行实时评估与迭代。该数据集支持的按需生成机制，允许用户通过自然语言描述需求，即时获得已验证的测试环境，从而将评估转变为持续、用户驱动的过程。此外，其作为训练环境生成器的功能，能够根据代理当前弱点动态生成任务分布，助力代理在模拟工作流中实现针对性强化学习，提升其在真实数字生态系统中的适应性与可靠性。

数据集最近研究