Auto-ClawEval

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/AIcell/Auto-ClawEval

下载链接

链接失效反馈

官方服务：

资源简介：

Auto-ClawEval是一个自动生成的智能体评估基准数据集，包含1,040个任务，覆盖104个独特场景，由ClawEnvKit创建。该数据集旨在评估智能体在多种任务中的表现，包括API调用和文件依赖任务。具体包含24个类别和20个模拟服务，其中77%为基于API的任务，23%为文件依赖任务。每个任务以YAML文件形式定义，包含任务提示、可用工具、评分组件和安全检查等信息。同时提供用于文件依赖任务的固定文件（如图片、文档和数据库）。用户可通过Hugging Face的datasets库加载数据集，并使用ClawEnvKit提供的多种评估工具进行测试。适用于智能体性能评估、工具使用能力测试等场景。

Auto-ClawEval is an automatically generated agent evaluation benchmark dataset containing 1,040 tasks covering 104 unique scenarios, created by ClawEnvKit. The dataset is designed to evaluate agent performance across various tasks, including API calls and file dependency tasks. It comprises 24 categories and 20 simulated services, with 77% being API-based tasks and 23% file dependency tasks. Each task is defined in YAML format, containing task prompts, available tools, scoring components, and safety checks. The dataset also provides fixed files (such as images, documents, and databases) for file dependency tasks. Users can load the dataset via Hugging Faces datasets library and utilize various evaluation tools provided by ClawEnvKit for testing. Suitable for scenarios like agent performance evaluation and tool usage capability testing.

创建时间：

2026-04-12

原始信息汇总

Auto-ClawEval 数据集概述

基本信息

许可证：MIT
任务类别：其他（agent-evaluation、tool-use、benchmark）
数据规模：1,000 ~ 10,000 条
配置：仅包含 default 配置，数据文件为 metadata.jsonl，划分为训练集

数据集规模与结构

指标	数值
任务总数	1,040
场景类别数	24
模拟服务数	20
任务类型	API 型（77%）+ 文件依赖型（23%）

数据布局

数据集的目录结构如下：

tasks/ <category>/ <task_id>.yaml # 任务定义（提示、工具、评分、安全检查） fixtures/<task_id>/image.jpg # 文件依赖型任务的固定文件 fixtures/<task_id>/document.txt fixtures/<task_id>/data.db metadata.jsonl # 扁平索引，每行一个任务

任务 YAML 结构

字段	类型	说明
`task_id`	string	唯一标识符（如 `todo-001`）
`task_name`	string	简短易读的任务名称
`category`	string	所属类别（共 24 类）
`difficulty`	string	难度等级：easy / medium / hard
`prompt`	string	面向智能体的自然语言任务描述
`tools`	list	可用工具（名称、端点、方法、服务、描述）
`fixtures`	dict	任务运行前加载到服务中的模拟数据
`files`	list	挂载到工作空间的固定文件（图片、文档、数据库）
`scoring_components`	list	带权重的评分检查项（15 种确定性类型 + `llm_judge`）
`safety_checks`	list	安全约束（`tool_not_called`、`keywords_not_in_output`）
`reference_solution`	string/list	分步预期工作流程

评估框架

ClawEnvKit 支持 10 种评估框架，分为 4 个集成层级：

层级	框架
插件	OpenClaw
MCP	Claude Code、NanoClaw、IronClaw、PicoClaw、ZeroClaw
SKILL.md + shell	CoPaw、NemoClaw、Hermes
基线	Agent Loop（无 Docker，函数调用）

相关资源

ClawEnvKit — 用于生成和评估智能体环境的工具包
Auto-ClawEval-mini — 精简版 104 任务子集
Claw-Eval — 人工编写的基线基准

搜集汇总

数据集介绍

构建方式

在智能体评估领域，Auto-ClawEval数据集的构建体现了自动化生成的前沿理念。该数据集依托ClawEnvKit工具包，通过程序化方法生成了涵盖24个类别、104个独特场景的1,040项任务。其构建过程系统性地整合了任务定义、模拟服务配置以及评分规则设计，其中77%的任务基于API调用，23%的任务涉及文件依赖，确保了评估场景的多样性与复杂性。每个任务均以结构化的YAML文件进行描述，包含了自然语言提示、可用工具列表、预置数据以及详细的评分组件，从而为智能体能力评估提供了一个标准化且可扩展的基准环境。

特点

Auto-ClawEval数据集的核心特征在于其高度的自动生成性与丰富的场景覆盖。数据集不仅任务数量庞大，更通过精心设计的类别体系与难度分级，模拟了从简单到复杂的真实世界操作需求。其显著特点在于融合了多种任务类型，既包含直接的API交互，也涵盖了需要处理图像、文档或数据库文件的综合性任务。此外，数据集内置了明确的评分组件与安全约束检查机制，为评估过程提供了客观、可量化的依据，使得对不同智能体或模型在工具使用、任务规划与执行方面的性能进行系统比较成为可能。

使用方法

利用Auto-ClawEval数据集进行评估，研究者可通过多种途径灵活展开。最直接的方式是使用Hugging Face的`datasets`库加载元数据索引，快速浏览任务概览。为了执行完整的评估流程，推荐结合ClawEnvKit提供的多种评测框架，例如通过Docker容器运行的Claude Code等集成化测试环境，或无需容器的Agent Loop基础测试。用户可以根据需求选择相应的评测框架，通过指定数据集路径与模型配置，自动化地运行任务、调用工具并依据预定义的评分规则收集结果，从而高效地完成对智能体综合能力的基准测试与分析。

背景与挑战

背景概述

在人工智能领域，智能体评估与工具使用能力的标准化测评始终是推动技术发展的关键环节。Auto-ClawEval数据集由AIcell团队于2026年创建，其核心研究问题聚焦于如何系统性地评估智能体在复杂、多模态环境中的任务执行与工具调用能力。该数据集通过ClawEnvKit工具包自动生成，涵盖了104个独特场景下的1040项任务，涉及API调用与文件操作等多种交互类型，旨在为智能体泛化性能与鲁棒性提供严谨的量化基准，对自动化智能体与具身智能研究产生了显著的推动作用。

当前挑战

该数据集致力于解决智能体在开放域环境中工具使用与任务规划的评估挑战，其核心难点在于设计能够全面反映真实世界复杂性与动态性的多样化任务场景，同时确保评估过程的自动化、可复现与标准化。在构建过程中，挑战主要体现在如何高效生成大规模、高质量且语义丰富的任务定义，包括工具接口的模拟、多模态夹具的集成以及自动化评分规则的制定，并需在任务难度、类别分布与安全性约束之间取得精细平衡，以构建一个既具广度又具深度的评估生态体系。

常用场景

经典使用场景

在智能体评估领域，Auto-ClawEval数据集作为自动生成的基准测试工具，其经典应用场景集中于评估智能体在多样化任务中的工具使用与决策能力。该数据集涵盖104个独特场景下的1040项任务，涉及API调用与文件处理等混合类型，为研究者提供了标准化的测试环境，以系统化地衡量智能体在复杂环境中的交互表现与泛化性能。

衍生相关工作

围绕该数据集衍生的经典工作包括ClawEnvKit工具集的持续扩展，以及基于不同集成层级（如MCP协议、SKILL.md规范）的十余种评估框架开发。相关研究进一步推动了如Auto-ClawEval-mini轻量子集、Claw-Eval人工标注基准等衍生资源的创建，这些工作共同构建了层次化的智能体评估生态系统，为后续研究提供了可比较的基线与方法论参考。

数据集最近研究