five

Auto-ClawEval-mini

收藏
Hugging Face2026-04-21 更新2026-04-22 收录
下载链接:
https://huggingface.co/datasets/AIcell/Auto-ClawEval-mini
下载链接
链接失效反馈
官方服务:
资源简介:
Auto-ClawEval-mini 是一个紧凑的智能体评估基准数据集,由 ClawEnvKit 创建,包含 104 个任务。数据集涵盖 24 个类别和 20 个模拟服务,任务类型包括 API 基础(77%)和文件依赖(23%)。每个任务通过 YAML 文件定义,包含任务 ID、名称、类别、难度、提示、工具、固定装置、文件、评分组件、安全检查以及参考解决方案等字段。数据集还提供了一个扁平索引文件 metadata.jsonl,便于快速访问任务信息。该数据集适用于智能体评估和工具使用等任务,支持通过 ClawEnvKit 的多种评估工具进行测试。数据集规模小于 1K,适用于小型到中型的研究项目。
创建时间:
2026-04-12
原始信息汇总

Auto-ClawEval-mini 数据集概述

基本信息

  • 数据集名称:Auto-ClawEval-mini
  • 许可证:MIT
  • 任务类别:其他(other)
  • 数据集大小:少于1,000条(n<1K)
  • 数据集地址:https://huggingface.co/datasets/AIcell/Auto-ClawEval-mini

数据集规模与结构

  • 任务数量:104个任务
  • 任务类别数:24个类别
  • 模拟服务数:20个
  • 任务类型分布:基于API的任务占77%,基于文件的任务占23%

数据组成

数据集包含以下文件结构:

  • tasks/ 目录:按类别组织,每个任务对应一个YAML文件,定义提示词、工具、评分和安全检查
  • metadata.jsonl:扁平索引文件,每行对应一个任务

任务YAML结构

字段 类型 说明
task_id 字符串 唯一标识符(如 todo-001
task_name 字符串 简短可读名称
category 字符串 所属类别(共24类)
difficulty 字符串 难度等级(easy/medium/hard)
prompt 字符串 面向智能体的自然语言任务描述
tools 列表 可用工具(名称、端点、方法、服务、描述)
fixtures 字典 任务运行前加载到服务中的模拟数据
files 列表 挂载到工作空间的固定文件(图片、文档、数据库)
scoring_components 列表 带权重的评分检查(15种确定性类型 + llm_judge
safety_checks 列表 安全约束(如 tool_not_calledkeywords_not_in_output
reference_solution 字符串/列表 逐步预期的执行流程

使用方式

通过Hugging Face CLI下载

bash huggingface-cli download AIcell/Auto-ClawEval-mini --repo-type dataset --local-dir Auto-ClawEval-mini

通过datasets库加载

python from datasets import load_dataset ds = load_dataset("AIcell/Auto-ClawEval-mini", split="train") print(ds[0]["prompt"]) print(ds[0]["task_id"], ds[0]["category"], ds[0]["services"])

读取完整任务定义

python import yaml from huggingface_hub import hf_hub_download

path = hf_hub_download( repo_id="AIcell/Auto-ClawEval-mini", repo_type="dataset", filename="tasks/todo/todo-001.yaml", ) task = yaml.safe_load(open(path)) print(task["prompt"]) print(task["tools"]) print(task["scoring_components"])

评估支持

ClawEnvKit 工具包支持10种评估框架,分为3个集成层级:

层级 评估框架
插件(Plugin) OpenClaw
MCP Claude Code, NanoClaw, IronClaw, PicoClaw, ZeroClaw
SKILL.md + shell CoPaw, NemoClaw, Hermes
基线(Baseline) Agent Loop(无Docker,函数调用)

相关资源

  • ClawEnvKit(https://github.com/xirui-li/ClawEnvKit)— 用于生成和评估智能体环境的工具包
  • Auto-ClawEval(https://huggingface.co/datasets/AIcell/Auto-ClawEval)— 完整基准测试集,包含1,040个任务
  • Claw-Eval(https://github.com/qwibitai/claw-eval)— 人工编写的基线基准测试集

引用

bibtex @misc{li2026clawenvkitautomaticenvironmentgeneration, title={ClawEnvKit: Automatic Environment Generation for Claw-Like Agents}, author={Xirui Li and Ming Li and Derry Xu and Wei-Lin Chiang and Ion Stoica and Cho-Jui Hsieh and Tianyi Zhou}, year={2026}, eprint={2604.18543}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2604.18543}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在智能体评估领域,Auto-ClawEval-mini数据集的构建体现了系统化与自动化的设计理念。该数据集通过ClawEnvKit工具包自动生成,共包含104个评估任务,涵盖24个不同的任务类别。其构建核心在于为每个任务精心设计结构化的YAML定义文件,其中详细规定了任务提示、可用工具列表、模拟服务配置、评分组件及安全约束。任务类型以API调用为主(占比77%),辅以文件依赖型任务(占比23%),并配备了20个模拟服务以及相应的测试夹具文件,从而构建出一个紧凑而全面的评估环境。
特点
该数据集的一个显著特点是其高度结构化和模块化的任务定义体系。每个任务均通过YAML文件进行标准化描述,不仅包含自然语言提示,还明确定义了工具调用接口、评分细则与安全验证机制。数据集涵盖了多样化的任务难度与类别,旨在全面检验智能体在工具使用、多步骤推理及文件处理等方面的综合能力。其紧凑的规模(小于1000个样本)便于快速实验与迭代,同时作为更大规模Auto-ClawEval基准的微型代表,保持了评估维度的完整性与代表性。
使用方法
使用该数据集进行智能体评估,主要依托于配套的ClawEnvKit工具包所提供的多种评测框架。研究人员可通过Docker容器化的评测工具(如Claude Code)或无需容器的代理循环模式来运行评估。具体操作包括下载数据集文件,利用预定义的脚本启动评估流程,并指定待测模型。在评估过程中,系统会根据任务YAML中定义的评分组件和安全检查项,自动执行工具调用、结果验证与分数计算。用户亦可直接通过Hugging Face的datasets库加载元数据,或进一步解析原始YAML文件以深入分析任务细节。
背景与挑战
背景概述
随着智能体技术的快速发展,对工具使用能力的评估成为人工智能领域的关键研究方向。Auto-ClawEval-mini数据集由ClawEnvKit团队于2026年创建,作为Auto-ClawEval基准的紧凑版本,旨在系统评估智能体在复杂环境中的工具调用与任务执行能力。该数据集包含104个精心设计的任务,涵盖24个不同类别,涉及API调用与文件处理等多种交互模式,为研究者提供了标准化的评估框架,有效推动了具身智能与工具学习领域的算法进步与模型优化。
当前挑战
该数据集致力于解决智能体工具使用评估中的核心挑战,包括如何设计多样化任务以全面覆盖现实场景,以及如何构建可靠的自动化评分机制。在构建过程中,团队需要克服多服务模拟集成、任务难度平衡、以及安全约束定义等工程难题,确保评估环境既具有高度真实性又能保持可复现性,从而为智能体能力评估提供坚实的技术基础。
常用场景
经典使用场景
在智能体评估领域,Auto-ClawEval-mini数据集作为紧凑型基准测试工具,其经典使用场景集中于对AI智能体在工具调用与API交互能力方面的系统性评测。该数据集通过精心设计的104个多样化任务,覆盖了24个类别,其中77%为API驱动型任务,23%涉及文件依赖操作,为研究者提供了一个标准化的环境,用以评估智能体在模拟服务中执行复杂指令、整合多模态信息以及遵循安全约束的实际表现。
解决学术问题
该数据集有效解决了智能体评估中缺乏标准化、可复现基准的核心学术问题。传统评估往往依赖人工编写或特定领域任务,难以全面衡量智能体在通用工具使用、环境交互及安全合规方面的能力。Auto-ClawEval-mini通过自动化生成的任务定义、明确的评分组件和安全检查机制,为量化智能体的工具调用准确性、任务完成度以及行为安全性提供了结构化框架,从而推动了智能体评估方法从主观定性向客观定量的科学转变。
衍生相关工作
围绕该数据集衍生了一系列经典研究工作,其中ClawEnvKit工具包作为核心支撑框架,提供了从任务生成到多层级评测的完整解决方案。基于其构建的评测体系如Claude Code、NanoClaw等MCP集成工具,以及CoPaw、Hermes等技能驱动型评测方法,形成了丰富的智能体评估生态系统。同时,扩展版本Auto-ClawEval(包含1040个任务)及人工标注基准Claw-Eval进一步推动了领域内评测标准的完善与模型能力的横向对比研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作