Claw-Eval

github2026-04-08 更新2026-04-10 收录

下载链接：

https://github.com/claw-eval/claw-eval

下载链接

链接失效反馈

官方服务：

资源简介：

Claw-Eval是一个用于评估自主代理的可信评估工具，包含300个人工验证的任务、2,159个评分标准、9个类别，覆盖完成度、安全性和鲁棒性三个维度。

Claw-Eval is a trustworthy evaluation tool for assessing autonomous agents, consisting of 300 manually verified tasks, 2,159 scoring criteria, and 9 categories, covering three dimensions: completeness, safety, and robustness.

创建时间：

2026-03-12

原始信息汇总

Claw-Eval 数据集概述

数据集基本信息

数据集名称：Claw-Eval
核心目标：面向自主智能体的可信评估
核心描述：300项人工验证任务 | 2,159条评估准则 | 9个类别 | 评估维度：任务完成度、安全性、鲁棒性

数据集规模与结构

任务总数：300项人工验证任务
评估准则数量：2,159条
任务类别数量：9个类别
任务划分：
- general：161项任务，涵盖通信、金融、运营、生产力等核心智能体任务
- multimodal：101项任务，涉及感知与创造，如网页生成、视频问答、文档提取等
- multi_turn：38项任务，包含带有模拟用户角色的对话任务，用于澄清和建议

评估维度与方法

评估维度：
- 任务完成度：智能体是否完成了任务
- 安全性：智能体是否避免了有害或未经授权的操作
- 鲁棒性：智能体是否在多次试验中始终通过
主要评估指标：Pass^3
- 为消除“侥幸运行”，模型必须在三次独立试验中始终通过一项任务才能获得成功积分
- 严格通过标准：在Pass^3方法下，只有当模型在所有三次运行中都满足成功标准时，任务才被标记为通过
评估逻辑：
- 致力于端到端的可复现性，代码库正在接受审计，以确保排行榜上的所有基准测试结果都能被社区验证
- 处理API不稳定性：对于由网络或API波动引起的执行错误，会手动重新触发评估，以确保成功生成恰好3条轨迹

数据获取与格式

数据集地址：https://huggingface.co/datasets/claw-eval/Claw-Eval
数据字段：
- task_id：字符串，唯一任务标识符
- query：字符串，任务指令/描述
- fixture：字符串列表，所需的夹具文件（位于data/fixtures.tar.gz中）
- language：字符串，en或zh
- category：字符串，任务领域
夹具文件说明：由于文件大小限制，GitHub仓库不包含视频任务相关的视频文件。完整的夹具文件（包括所有视频）可在Hugging Face数据集页面获取。

版本更新

v1.1.0：包含9个类别的300项人工验证任务，智能体进行感知、推理、创造和交付
v1.0.0：建立在可复现的真实世界复杂性之上
v0.0.0：从聊天机器人到真实世界（2026年3月）

致谢与引用

任务来源：测试案例基于社区工作，借鉴并改编了来自OpenClaw、PinchBench、OfficeQA、OneMillion-Bench、Finance Agent和Terminal-Bench 2.0贡献的任务
引用格式： bibtex @misc{claw-eval2026, title={Claw-Eval: End-to-End Transparent Benchmark for AI Agents in the Real World}, author={Ye, Bowen and Li, Rang and Yang, Qibin and Xie, Zhihui and Liu, Yuanxin and Yao, Linli and Lyu, Hanglong and Li, Lei}, year={2026}, url={https://github.com/claw-eval/claw-eval} }

搜集汇总

数据集介绍

构建方式

在自主智能体评估领域，Claw-Eval数据集的构建体现了对真实世界复杂性的深度模拟。该数据集通过整合来自多个社区基准的测试案例，如OpenClaw、PinchBench等，精心设计了300项经过人工验证的任务。这些任务覆盖了通用、多模态和多轮对话三大类别，每个任务均配备了详细的评估准则，确保了任务设计的多样性与严谨性。数据构建过程强调端到端的可复现性，通过严格的轨迹审计，为智能体在感知、推理与执行等维度的评估提供了坚实的数据基础。

特点

Claw-Eval数据集的核心特征在于其多维度的评估框架与严格的验证机制。数据集不仅包含300项涵盖通信、金融、操作及生产力等九大领域的人工验证任务，还引入了创新的Pass^3评估逻辑，要求模型必须在三次独立试验中均满足成功标准，从而有效排除了偶然性成功，提升了评估的可靠性与鲁棒性。此外，数据集通过全轨迹审计，从任务完成度、安全性与鲁棒性三个维度对智能体进行综合评分，其多模态任务设计进一步扩展了评估场景的真实性与复杂性。

使用方法

使用Claw-Eval数据集进行智能体评估，需遵循其提供的标准化工作流程。用户可通过Hugging Face平台获取数据集及完整的配套文件，并利用项目代码库中的配置脚本设置评估环境。评估过程支持并行执行，通过指定模型配置文件、沙箱环境及试验次数等参数，可自动生成并分析智能体的任务执行轨迹。数据集强调社区可验证性，所有基准结果均设计为可复现，用户可通过公开的代码审计确保评估过程的透明度与一致性。

背景与挑战

背景概述

随着人工智能代理从对话系统向现实世界复杂任务执行演进，其能力评估面临严峻挑战。Claw-Eval数据集于2026年由北京大学与香港大学联合团队发布，旨在构建端到端透明的自主智能体评估基准。该数据集聚焦于解决智能体在完成、安全性与鲁棒性三个维度的综合性能量化问题，通过300项人工验证任务覆盖通用、多模态及多轮对话等九大类别，为智能体在金融、运营、生产力等真实场景中的可靠性评估提供标准化框架，推动了自主智能体评估从理论验证向实际应用的关键转型。

当前挑战

在自主智能体评估领域，核心挑战在于如何设计能够全面反映真实世界复杂性的任务体系，并建立可重复、抗干扰的评估机制。Claw-Eval构建过程中需克服多模态任务环境模拟、动态交互轨迹捕获以及评估标准主观性等难题。数据集通过引入Pass^3三重独立试验机制消除偶然性误差，并采用沙盒隔离与全轨迹审计技术确保评估过程的透明度与可复现性，但如何持续扩展任务多样性、深化状态验证粒度以及应对API服务不稳定性，仍是该基准面向未来复杂生产力环境演进的重要课题。

常用场景

经典使用场景

在自主智能体研究领域，Claw-Eval数据集作为一项综合性评估基准，其经典使用场景集中于对多模态、多轮交互及通用任务处理能力的系统性评测。该数据集通过涵盖通信、金融、运营等九大类别共300项人工验证任务，为研究者提供了模拟真实世界复杂环境的测试平台，尤其适用于评估智能体在感知、推理、创造与交付等维度的端到端性能。借助其严格的Pass^3评估逻辑，要求模型在三次独立试验中均满足成功标准，有效排除了偶然性表现，从而确保了评测结果的可靠性与一致性。

衍生相关工作

Claw-Eval数据集构建于多个社区贡献的基准之上，并衍生出一系列聚焦于智能体评估的经典研究工作。其任务设计借鉴并融合了OpenClaw、PinchBench、OfficeQA等基准的核心思想，推动了评估范畴从单一任务向跨模态、长程交互的扩展。基于该数据集所提出的Pass^3评估方法论，进一步激发了关于智能体鲁棒性量化与一致性验证的研究方向。相关工作亦围绕沙箱隔离、全轨迹追踪等透明化评估技术展开，为构建可扩展、可复现的智能体评估生态系统提供了重要参考与启发。

数据集最近研究