Auto-ClawEval
收藏Hugging Face2026-04-21 更新2026-04-22 收录
下载链接:
https://huggingface.co/datasets/AIcell/Auto-ClawEval
下载链接
链接失效反馈官方服务:
资源简介:
Auto-ClawEval是一个自动生成的智能体评估基准数据集,包含1,040个任务,覆盖104个独特场景,由ClawEnvKit创建。该数据集旨在评估智能体在多种任务中的表现,包括API调用和文件依赖任务。具体包含24个类别和20个模拟服务,其中77%为基于API的任务,23%为文件依赖任务。每个任务以YAML文件形式定义,包含任务提示、可用工具、评分组件和安全检查等信息。同时提供用于文件依赖任务的固定文件(如图片、文档和数据库)。用户可通过Hugging Face的datasets库加载数据集,并使用ClawEnvKit提供的多种评估工具进行测试。适用于智能体性能评估、工具使用能力测试等场景。
Auto-ClawEval is an automatically generated agent evaluation benchmark dataset containing 1,040 tasks covering 104 unique scenarios, created by ClawEnvKit. The dataset is designed to evaluate agent performance across various tasks, including API calls and file dependency tasks. It comprises 24 categories and 20 simulated services, with 77% being API-based tasks and 23% file dependency tasks. Each task is defined in YAML format, containing task prompts, available tools, scoring components, and safety checks. The dataset also provides fixed files (such as images, documents, and databases) for file dependency tasks. Users can load the dataset via Hugging Faces datasets library and utilize various evaluation tools provided by ClawEnvKit for testing. Suitable for scenarios like agent performance evaluation and tool usage capability testing.
创建时间:
2026-04-12
原始信息汇总
Auto-ClawEval 数据集概述
基本信息
- 许可证:MIT
- 任务类别:其他(agent-evaluation、tool-use、benchmark)
- 数据规模:1,000 ~ 10,000 条
- 配置:仅包含
default配置,数据文件为metadata.jsonl,划分为训练集
数据集规模与结构
| 指标 | 数值 |
|---|---|
| 任务总数 | 1,040 |
| 场景类别数 | 24 |
| 模拟服务数 | 20 |
| 任务类型 | API 型(77%)+ 文件依赖型(23%) |
数据布局
数据集的目录结构如下:
tasks/ <category>/ <task_id>.yaml # 任务定义(提示、工具、评分、安全检查) fixtures/<task_id>/image.jpg # 文件依赖型任务的固定文件 fixtures/<task_id>/document.txt fixtures/<task_id>/data.db metadata.jsonl # 扁平索引,每行一个任务
任务 YAML 结构
| 字段 | 类型 | 说明 |
|---|---|---|
task_id |
string | 唯一标识符(如 todo-001) |
task_name |
string | 简短易读的任务名称 |
category |
string | 所属类别(共 24 类) |
difficulty |
string | 难度等级:easy / medium / hard |
prompt |
string | 面向智能体的自然语言任务描述 |
tools |
list | 可用工具(名称、端点、方法、服务、描述) |
fixtures |
dict | 任务运行前加载到服务中的模拟数据 |
files |
list | 挂载到工作空间的固定文件(图片、文档、数据库) |
scoring_components |
list | 带权重的评分检查项(15 种确定性类型 + llm_judge) |
safety_checks |
list | 安全约束(tool_not_called、keywords_not_in_output) |
reference_solution |
string/list | 分步预期工作流程 |
评估框架
ClawEnvKit 支持 10 种评估框架,分为 4 个集成层级:
| 层级 | 框架 |
|---|---|
| 插件 | OpenClaw |
| MCP | Claude Code、NanoClaw、IronClaw、PicoClaw、ZeroClaw |
| SKILL.md + shell | CoPaw、NemoClaw、Hermes |
| 基线 | Agent Loop(无 Docker,函数调用) |
相关资源
- ClawEnvKit — 用于生成和评估智能体环境的工具包
- Auto-ClawEval-mini — 精简版 104 任务子集
- Claw-Eval — 人工编写的基线基准
搜集汇总
数据集介绍

构建方式
在智能体评估领域,Auto-ClawEval数据集的构建体现了自动化生成的前沿理念。该数据集依托ClawEnvKit工具包,通过程序化方法生成了涵盖24个类别、104个独特场景的1,040项任务。其构建过程系统性地整合了任务定义、模拟服务配置以及评分规则设计,其中77%的任务基于API调用,23%的任务涉及文件依赖,确保了评估场景的多样性与复杂性。每个任务均以结构化的YAML文件进行描述,包含了自然语言提示、可用工具列表、预置数据以及详细的评分组件,从而为智能体能力评估提供了一个标准化且可扩展的基准环境。
特点
Auto-ClawEval数据集的核心特征在于其高度的自动生成性与丰富的场景覆盖。数据集不仅任务数量庞大,更通过精心设计的类别体系与难度分级,模拟了从简单到复杂的真实世界操作需求。其显著特点在于融合了多种任务类型,既包含直接的API交互,也涵盖了需要处理图像、文档或数据库文件的综合性任务。此外,数据集内置了明确的评分组件与安全约束检查机制,为评估过程提供了客观、可量化的依据,使得对不同智能体或模型在工具使用、任务规划与执行方面的性能进行系统比较成为可能。
使用方法
利用Auto-ClawEval数据集进行评估,研究者可通过多种途径灵活展开。最直接的方式是使用Hugging Face的`datasets`库加载元数据索引,快速浏览任务概览。为了执行完整的评估流程,推荐结合ClawEnvKit提供的多种评测框架,例如通过Docker容器运行的Claude Code等集成化测试环境,或无需容器的Agent Loop基础测试。用户可以根据需求选择相应的评测框架,通过指定数据集路径与模型配置,自动化地运行任务、调用工具并依据预定义的评分规则收集结果,从而高效地完成对智能体综合能力的基准测试与分析。
背景与挑战
背景概述
在人工智能领域,智能体评估与工具使用能力的标准化测评始终是推动技术发展的关键环节。Auto-ClawEval数据集由AIcell团队于2026年创建,其核心研究问题聚焦于如何系统性地评估智能体在复杂、多模态环境中的任务执行与工具调用能力。该数据集通过ClawEnvKit工具包自动生成,涵盖了104个独特场景下的1040项任务,涉及API调用与文件操作等多种交互类型,旨在为智能体泛化性能与鲁棒性提供严谨的量化基准,对自动化智能体与具身智能研究产生了显著的推动作用。
当前挑战
该数据集致力于解决智能体在开放域环境中工具使用与任务规划的评估挑战,其核心难点在于设计能够全面反映真实世界复杂性与动态性的多样化任务场景,同时确保评估过程的自动化、可复现与标准化。在构建过程中,挑战主要体现在如何高效生成大规模、高质量且语义丰富的任务定义,包括工具接口的模拟、多模态夹具的集成以及自动化评分规则的制定,并需在任务难度、类别分布与安全性约束之间取得精细平衡,以构建一个既具广度又具深度的评估生态体系。
常用场景
经典使用场景
在智能体评估领域,Auto-ClawEval数据集作为自动生成的基准测试工具,其经典应用场景集中于评估智能体在多样化任务中的工具使用与决策能力。该数据集涵盖104个独特场景下的1040项任务,涉及API调用与文件处理等混合类型,为研究者提供了标准化的测试环境,以系统化地衡量智能体在复杂环境中的交互表现与泛化性能。
衍生相关工作
围绕该数据集衍生的经典工作包括ClawEnvKit工具集的持续扩展,以及基于不同集成层级(如MCP协议、SKILL.md规范)的十余种评估框架开发。相关研究进一步推动了如Auto-ClawEval-mini轻量子集、Claw-Eval人工标注基准等衍生资源的创建,这些工作共同构建了层次化的智能体评估生态系统,为后续研究提供了可比较的基线与方法论参考。
数据集最近研究
最新研究方向
在智能体评估领域,Auto-ClawEval数据集凭借其自动生成的多样化任务场景,正推动着工具使用与API交互能力的前沿探索。该数据集整合了104个独特场景与千余项任务,涵盖文件依赖与API调用混合类型,为评估智能体在复杂环境中的泛化性能提供了标准化基准。当前研究热点聚焦于多模态工具链的集成与安全约束机制的优化,通过ClawEnvKit框架支持的十余种评估工具链,研究者能够系统比较不同模型架构在真实世界任务中的表现。这些进展不仅加速了通用智能体向实用化迈进,也为自动化环境生成与评估方法学奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



