Auto-ClawEval-mini

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/AIcell/Auto-ClawEval-mini

下载链接

链接失效反馈

官方服务：

资源简介：

Auto-ClawEval-mini 是一个紧凑的智能体评估基准数据集，由 ClawEnvKit 创建，包含 104 个任务。数据集涵盖 24 个类别和 20 个模拟服务，任务类型包括 API 基础（77%）和文件依赖（23%）。每个任务通过 YAML 文件定义，包含任务 ID、名称、类别、难度、提示、工具、固定装置、文件、评分组件、安全检查以及参考解决方案等字段。数据集还提供了一个扁平索引文件 metadata.jsonl，便于快速访问任务信息。该数据集适用于智能体评估和工具使用等任务，支持通过 ClawEnvKit 的多种评估工具进行测试。数据集规模小于 1K，适用于小型到中型的研究项目。

创建时间：

2026-04-12

原始信息汇总

Auto-ClawEval-mini 数据集概述

基本信息

数据集名称：Auto-ClawEval-mini
许可证：MIT
任务类别：其他（other）
数据集大小：少于1,000条（n<1K）
数据集地址：https://huggingface.co/datasets/AIcell/Auto-ClawEval-mini

数据集规模与结构

任务数量：104个任务
任务类别数：24个类别
模拟服务数：20个
任务类型分布：基于API的任务占77%，基于文件的任务占23%

数据组成

数据集包含以下文件结构：

tasks/ 目录：按类别组织，每个任务对应一个YAML文件，定义提示词、工具、评分和安全检查
metadata.jsonl：扁平索引文件，每行对应一个任务

任务YAML结构

字段	类型	说明
`task_id`	字符串	唯一标识符（如 `todo-001`）
`task_name`	字符串	简短可读名称
`category`	字符串	所属类别（共24类）
`difficulty`	字符串	难度等级（easy/medium/hard）
`prompt`	字符串	面向智能体的自然语言任务描述
`tools`	列表	可用工具（名称、端点、方法、服务、描述）
`fixtures`	字典	任务运行前加载到服务中的模拟数据
`files`	列表	挂载到工作空间的固定文件（图片、文档、数据库）
`scoring_components`	列表	带权重的评分检查（15种确定性类型 + `llm_judge`）
`safety_checks`	列表	安全约束（如 `tool_not_called`、`keywords_not_in_output`）
`reference_solution`	字符串/列表	逐步预期的执行流程

使用方式

通过Hugging Face CLI下载

bash huggingface-cli download AIcell/Auto-ClawEval-mini --repo-type dataset --local-dir Auto-ClawEval-mini

通过datasets库加载

python from datasets import load_dataset ds = load_dataset("AIcell/Auto-ClawEval-mini", split="train") print(ds[0]["prompt"]) print(ds[0]["task_id"], ds[0]["category"], ds[0]["services"])

读取完整任务定义

python import yaml from huggingface_hub import hf_hub_download

path = hf_hub_download( repo_id="AIcell/Auto-ClawEval-mini", repo_type="dataset", filename="tasks/todo/todo-001.yaml", ) task = yaml.safe_load(open(path)) print(task["prompt"]) print(task["tools"]) print(task["scoring_components"])

评估支持

ClawEnvKit 工具包支持10种评估框架，分为3个集成层级：

层级	评估框架
插件（Plugin）	OpenClaw
MCP	Claude Code, NanoClaw, IronClaw, PicoClaw, ZeroClaw
SKILL.md + shell	CoPaw, NemoClaw, Hermes
基线（Baseline）	Agent Loop（无Docker，函数调用）

引用

bibtex @misc{li2026clawenvkitautomaticenvironmentgeneration, title={ClawEnvKit: Automatic Environment Generation for Claw-Like Agents}, author={Xirui Li and Ming Li and Derry Xu and Wei-Lin Chiang and Ion Stoica and Cho-Jui Hsieh and Tianyi Zhou}, year={2026}, eprint={2604.18543}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2604.18543}, }

搜集汇总

数据集介绍

构建方式

在智能体评估领域，Auto-ClawEval-mini数据集的构建体现了系统化与自动化的设计理念。该数据集通过ClawEnvKit工具包自动生成，共包含104个评估任务，涵盖24个不同的任务类别。其构建核心在于为每个任务精心设计结构化的YAML定义文件，其中详细规定了任务提示、可用工具列表、模拟服务配置、评分组件及安全约束。任务类型以API调用为主（占比77%），辅以文件依赖型任务（占比23%），并配备了20个模拟服务以及相应的测试夹具文件，从而构建出一个紧凑而全面的评估环境。

特点

该数据集的一个显著特点是其高度结构化和模块化的任务定义体系。每个任务均通过YAML文件进行标准化描述，不仅包含自然语言提示，还明确定义了工具调用接口、评分细则与安全验证机制。数据集涵盖了多样化的任务难度与类别，旨在全面检验智能体在工具使用、多步骤推理及文件处理等方面的综合能力。其紧凑的规模（小于1000个样本）便于快速实验与迭代，同时作为更大规模Auto-ClawEval基准的微型代表，保持了评估维度的完整性与代表性。

使用方法

使用该数据集进行智能体评估，主要依托于配套的ClawEnvKit工具包所提供的多种评测框架。研究人员可通过Docker容器化的评测工具（如Claude Code）或无需容器的代理循环模式来运行评估。具体操作包括下载数据集文件，利用预定义的脚本启动评估流程，并指定待测模型。在评估过程中，系统会根据任务YAML中定义的评分组件和安全检查项，自动执行工具调用、结果验证与分数计算。用户亦可直接通过Hugging Face的datasets库加载元数据，或进一步解析原始YAML文件以深入分析任务细节。

背景与挑战

背景概述

随着智能体技术的快速发展，对工具使用能力的评估成为人工智能领域的关键研究方向。Auto-ClawEval-mini数据集由ClawEnvKit团队于2026年创建，作为Auto-ClawEval基准的紧凑版本，旨在系统评估智能体在复杂环境中的工具调用与任务执行能力。该数据集包含104个精心设计的任务，涵盖24个不同类别，涉及API调用与文件处理等多种交互模式，为研究者提供了标准化的评估框架，有效推动了具身智能与工具学习领域的算法进步与模型优化。

当前挑战

该数据集致力于解决智能体工具使用评估中的核心挑战，包括如何设计多样化任务以全面覆盖现实场景，以及如何构建可靠的自动化评分机制。在构建过程中，团队需要克服多服务模拟集成、任务难度平衡、以及安全约束定义等工程难题，确保评估环境既具有高度真实性又能保持可复现性，从而为智能体能力评估提供坚实的技术基础。

常用场景

经典使用场景

在智能体评估领域，Auto-ClawEval-mini数据集作为紧凑型基准测试工具，其经典使用场景集中于对AI智能体在工具调用与API交互能力方面的系统性评测。该数据集通过精心设计的104个多样化任务，覆盖了24个类别，其中77%为API驱动型任务，23%涉及文件依赖操作，为研究者提供了一个标准化的环境，用以评估智能体在模拟服务中执行复杂指令、整合多模态信息以及遵循安全约束的实际表现。

解决学术问题

该数据集有效解决了智能体评估中缺乏标准化、可复现基准的核心学术问题。传统评估往往依赖人工编写或特定领域任务，难以全面衡量智能体在通用工具使用、环境交互及安全合规方面的能力。Auto-ClawEval-mini通过自动化生成的任务定义、明确的评分组件和安全检查机制，为量化智能体的工具调用准确性、任务完成度以及行为安全性提供了结构化框架，从而推动了智能体评估方法从主观定性向客观定量的科学转变。

衍生相关工作

围绕该数据集衍生了一系列经典研究工作，其中ClawEnvKit工具包作为核心支撑框架，提供了从任务生成到多层级评测的完整解决方案。基于其构建的评测体系如Claude Code、NanoClaw等MCP集成工具，以及CoPaw、Hermes等技能驱动型评测方法，形成了丰富的智能体评估生态系统。同时，扩展版本Auto-ClawEval（包含1040个任务）及人工标注基准Claw-Eval进一步推动了领域内评测标准的完善与模型能力的横向对比研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集