Claw-Eval-Live
收藏arXiv2026-05-01 更新2026-05-02 收录
下载链接:
https://claw-eval-live.github.io
下载链接
链接失效反馈官方服务:
资源简介:
Claw-Eval-Live是由香港中文大学等机构联合构建的动态工作流智能体评估基准,其核心特色在于通过ClawHub Top-500技能等公开需求信号动态生成任务。当前版本包含105项任务,涵盖商业服务流程和本地工作空间修复两大场景,涉及18个受控服务及沙箱环境。数据集通过信号聚类、权重分配、种子扩展等五阶段流程构建,采用混合式行动锚定评分机制,旨在解决传统静态基准与真实工作流需求脱节的问题,为LLM智能体在多系统协同、状态变更验证等复杂场景下的性能评估提供科学标准。
Claw-Eval-Live is a dynamic workflow AI Agent evaluation benchmark jointly developed by The Chinese University of Hong Kong and other institutions. Its core feature is dynamically generating tasks via public demand signals such as ClawHub Top-500 skills. The current version includes 105 tasks, covering two scenarios: commercial service processes and local workspace repair, involving 18 controlled services and sandbox environments. The dataset is constructed through a five-stage workflow encompassing signal clustering, weight assignment, seed expansion and other procedures. It adopts a hybrid action-anchored scoring mechanism, aiming to address the mismatch between traditional static benchmarks and real-world workflow requirements, and provide a scientific standard for performance evaluation of LLM-powered AI Agents in complex scenarios such as multi-system collaboration and state change verification.
提供机构:
香港中文大学; 香港中文大学·深圳; 华南理工大学; 厦门大学; 北京大学; 香港科技大学; 香港大学
创建时间:
2026-05-01
搜集汇总
数据集介绍

构建方式
Claw-Eval-Live 的构建始于一个可刷新的信号层,该层从公开的工作流需求信号(ClawHub Top-500 技能)中获取分布先验。通过模式聚类将分散的技能名称聚合为稳定的工作流模式,并依据信号质量进行家族加权,形成目标发布混合比。随后,加权模式被扩展为可执行的任务种子,经实现、试运行筛选后,利用混合整数线性规划从157个候选任务中选取105个任务组成发布快照,确保判别力、家族覆盖与发布规模之间的平衡。每个任务均包含YAML定义、固定夹具、工具模式及任务专属评分器,并部署于受控业务服务或沙盒工作空间中执行。
特点
该数据集的核心特点在于其双重校准设计。首先,任务分布与时推移,通过定期刷新信号层来捕捉不断演变的真实工作流需求,避免静态基准的时效性衰退。其次,评分锚定于可观察的执行证据,包括工具调用轨迹、服务审计日志、工作空间后运行状态,仅当确定性证据不足时才引入结构化LLM评判。当前发布涵盖22个细粒度任务家族,横跨受控业务服务(87个任务)与工作空间修复(18个任务),并设置共享公开通过规则(评分≥0.80),从而区分模型是否真正完成了端到端工作流。
使用方法
使用 Claw-Eval-Live 时,研究者首先下载指定时间戳的发布快照,其中包含固定的任务定义、夹具与评分器。每个任务通过统一的评估协议运行:加载任务夹具与服务,向智能体提供任务提示与工具定义,智能体在与受控服务或沙盒工作空间的交互中执行多步工作流,框架记录完整的执行轨迹。最终由任务专属评分器基于轨迹证据计算完成分数,并报告通过率与总体完成分数。排名规则优先以通过率为依据,再以总体完成分数细分,从而保留任务级差异信息。
背景与挑战
背景概述
随着大语言模型(LLM)智能体从单轮问答迈向多步执行,评估目标已从生成合理回应转向完成端到端工作流。然而,现有基准多采用静态发布,固化的任务集随时间流逝难以反映真实世界工作流需求的动态演变,且评分多依赖最终响应,缺乏对智能体实际执行行为的验证。在此背景下,香港中文大学、香港中文大学(深圳)、华南理工大学、厦门大学、北京大学、香港科技大学及香港大学的研究团队于2026年联合推出了Claw-Eval-Live基准。该基准的核心创新在于将可刷新的公共工作流需求信号层与可复现的发布快照层分离,通过ClawHub Top-500技能信号驱动任务分布,确保评估内容始终贴近用户当下关切的自动化工作流。Claw-Eval-Live的发布,为工作流智能体的可信评估树立了新标杆,深刻影响了领域对智能体“能否执行”与“是否完成”的评判标准。
当前挑战
Claw-Eval-Live所面临的挑战既是领域问题的缩影,也贯穿于构建全程。在领域层面,工作流自动化远未解决:当前最优模型Claude Opus 4.6仅通过66.7%的任务,且无模型突破70%的通过率。任务族存在显著异质性,人力资源(HR)、管理与多系统协同等业务工作流持续成为瓶颈,而本地工作空间修复相对易解但未饱和。更棘手的是,榜单排名本身不足以反映全貌——通过率相似的模型可能在任务完成度上存在巨大差异,任务级区分度集中在中段评估任务中。在构建层面,挑战在于平衡可复现性与外部对齐:基准必须在发布后保持任务、固定设施与评分器的稳定,同时通过季度刷新吸收上游工作流信号漂移,避免任务混合度陈旧。此外,证据锚定亦非易事,传统仅评分最终响应无法验证智能体是否正确查询记录、更新状态或修复工件,Claw-Eval-Live通过动作锚定的混合评分——结合确定性检查与结构化LLM评判——在可控服务与沙盒工作空间中记录完整的执行轨迹、审计日志与后运行状态,方得以弥合“听起来正确”与“真正完成”之间的鸿沟。
常用场景
经典使用场景
在大型语言模型代理的评估领域,Claw-Eval-Live被设计为一个面向工作流代理的实时基准测试,其核心用途在于衡量代理能否在真实的、不断演变的工作流场景中完成端到端的执行任务。相比于传统基准测试中静态的任务集,该数据集通过从公开的工作流需求信号中提炼并刷新任务分布,确保评估内容始终与当前用户亟需自动化的业务流程保持同步。其典型使用场景涵盖跨业务服务的协调工作流(如CRM、财务、邮件、日历等系统的记录检索与状态变更)以及本地工作空间的修复操作(如日志检查、文件编辑与命令执行),从而全面检验代理在服务型和终端型任务中的综合执行能力。
实际应用
在实际应用中,Claw-Eval-Live可为企业级AI代理的部署决策提供关键参考。企业可通过该数据集评估候选模型在具体业务场景下的执行能力,例如财务对账、员工入职流程管理、跨系统会议协调、支持票务审计以及本地开发环境修复等高频工作流。数据集提供的成本效益分析(如令牌消耗与执行时间)还能辅助企业在准确性与资源开销之间做出权衡,例如在成本敏感型任务中优先选择如MiniMax或DeepSeek等高效模型。此外,其分家族的任务难度热力图(如人力资源类任务通过率低于22%而本地终端修复类任务接近100%)帮助企业识别特定领域的自动化瓶颈,从而有针对性地优化代理的提示词策略或工具接口设计。
衍生相关工作
Claw-Eval-Live的出现推动了多项相关学术工作的演进。其信号驱动任务构建的思想启发了如LiveCodeBench与EvoClaw等采用滚动更新机制的基准测试,这些工作进一步探索了如何从开源代码仓库或编程竞赛中动态提炼评估任务。在评估方法论层面,该数据集强调的轨迹感知与混合评分模式,与Claw-Eval系列中对代理行为多维度的可信评估一脉相承,并激发了如Watch-Every-Step和GroundingMe等关注过程级缺陷与证据锚定问题的研究。此外,其对服务型工作流与本地修复任务的明确划分,为后续如WorkArena和TheAgentCompany等面向企业部署的基准测试提供了任务分类与难度校准的标准参照系。
以上内容由遇见数据集搜集并总结生成



