ClawMark

github2026-04-15 更新2026-04-15 收录

下载链接：

https://github.com/evolvent-ai/ClawMark

下载链接

链接失效反馈

官方服务：

资源简介：

ClawMark是一个多模态、多阶段、多环境的日常工作基准测试，用于协作代理。包含100个任务，覆盖13个专业领域（临床、人力资源、法律、项目管理、房地产、研究助理、记者、保险、投资分析、行政助理、内容运营、电子商务、EDA）。每个任务模拟1-3个实际工作日的真实工作，测试模型在工具、多模态证据和时间线上的连续决策能力。

ClawMark is a multimodal, multi-stage, multi-environmental daily work benchmark for collaborative AI Agents. It includes 100 tasks covering 13 professional domains: Clinical, Human Resources (HR), Legal, Project Management, Real Estate, Research Assistant, Journalist, Insurance, Investment Analysis, Administrative Assistant, Content Operations, E-commerce, and Exploratory Data Analysis (EDA). Each task simulates real-world work spanning 1 to 3 actual workdays, and evaluates the model's ability to make sequential decisions across tools, multimodal evidence and timelines.

创建时间：

2026-04-13

原始信息汇总

ClawMark 数据集概述

数据集基本信息

数据集名称：ClawMark: A Living-World Benchmark for Multi-Day, Multimodal Coworker Agents
数据集地址：https://github.com/evolvent-ai/ClawMark
许可证：CC BY-NC 4.0

核心特性

多模态、多阶段、多环境的日常工作基准测试，用于评估协作智能体。
包含100个任务，涵盖13个专业领域：临床助理、人力资源、法律、项目管理、房地产、研究助理、记者、保险、投资分析师、行政助理、内容运营、电子商务、探索性数据分析。
每个任务模拟1-3个工作日的真实工作，测试模型在工具、多模态证据和时间线之间做出连续决策的能力。

任务设计特点

时间线驱动的多阶段任务：每个任务由1-3个阶段构成，每个阶段对应一个工作日。智能体接收当天的指令，在真实工具后端上执行工作，然后框架才推进到下一天。
跨环境工具协调：任务混合了文件系统、电子邮件（GreenMail）、Notion（模拟）、Google Sheets（模拟）和日历（Radicale CalDAV）后端，迫使模型跨多个系统交叉引用和协调信息。
多模态原始证据：assets/input/ 包含截图、照片、PDF、CSV、音频和视频。模型必须直接从原始证据中提取关键信息，没有预先消化的文本摘要。
隐式状态变化：环境数据在阶段之间发生突变（新邮件到达、数据库行更新、文件追加、日历事件变更）。模型必须主动刷新外部状态，而不仅仅是对最新指令做出反应。
严格的基于规则的评分：每个任务都附带10-25个确定性的Python检查器函数。零LLM作为评判者。结果100%可复现。

评估结果

评估指标：avg@3（每个任务独立运行3次，3个score值取平均，然后在100个任务上再次取平均）、turns / task（每个任务的助手消息数）、input tokens / task（每个任务的输入令牌总数）、output tokens / task（每个任务的输出令牌总数）。
模型表现：在100个任务 × 6个模型 × 3次运行的avg@3排行榜上，openai/gpt-5.4以0.5504分领先。
分领域表现：提供了13个专业领域中各模型的avg@3详细分数。

数据集结构与使用

任务布局：任务目录遵循严格的两级结构：tasks/{domain}/task{N}/。运行时仅加载task.py文件。
快速开始：包括环境设置、Docker镜像构建、运行单个任务/整个领域/完整100个任务套件的步骤。
结果检查：每次运行将其输出写入results/<task_id>/，包含result.json、messages.jsonl和workspace/目录。
添加新任务：通过创建tasks/{domain}/task{N}/task.py文件并定义METADATA、PROMPT、阶段函数和检查器函数来添加。

项目结构

ClawMark/ ├── src/clawmark/ # 框架核心 ├── docker/ # Dockerfile + docker-compose.yaml ├── configs/ # 配置文件 ├── skills/ # 注入到智能体容器的工具文档 ├── tasks/ # 100个基准测试任务 └── tests/ # 后端冒烟测试脚本

搜集汇总

数据集介绍

构建方式

在协作智能体评估领域，ClawMark数据集采用系统性工程方法构建，其核心在于模拟真实职场环境的多阶段任务流程。数据集涵盖13个专业领域的100项任务，每项任务设计为1至3个工作日的工作场景，通过时间线驱动的方式组织阶段。构建过程中，研发团队为每个任务创建了独立的Python脚本，包含元数据定义、多阶段执行函数以及基于规则的评分体系。任务环境整合了文件系统、电子邮件、Notion、Google日历和表格等多种模拟后端系统，并在阶段间植入隐式状态变更，确保评估场景的动态真实性。

特点

该数据集展现出多维度评估特性，其时间线驱动的多阶段任务结构模拟了真实工作场景的连续性，要求智能体在跨日工作中保持决策一致性。跨环境工具协调机制迫使模型在不同系统间进行信息交叉引用与整合，而多模态原始证据的引入则挑战模型直接从图像、音频、PDF等非结构化数据中提取关键信息的能力。数据集采用严格的基于规则评分体系，通过10-25个确定性Python检查函数实现零LLM评判，确保评估结果的完全可复现性。隐式状态变更设计进一步要求智能体主动感知环境变化而非被动响应指令。

使用方法

使用该数据集需遵循标准化部署流程，首先通过环境变量配置API密钥与模型参数，并完成Notion和Google Sheets等后端服务的凭证设置。运行框架基于Docker容器技术，为每个任务创建独立的执行环境组合。用户可通过命令行接口运行单个任务、特定领域任务集或完整百任务套件，支持干运行模式用于本地开发验证。执行结果以结构化JSON格式输出，包含加权分数、检查项通过状态及完整对话轨迹。任务目录采用严格的两级组织结构，运行时仅加载task.py脚本，资产文件在初始阶段上传至工作空间，中间阶段可通过注入目录动态更新环境状态。

背景与挑战

背景概述

在人工智能助手向多模态、长周期协作场景演进的时代背景下，Evolvent AI 团队推出了 ClawMark 基准测试数据集。该数据集旨在评估智能体在模拟真实工作环境中的持续决策与跨系统协作能力，其核心研究问题聚焦于智能体如何应对多日、多阶段、多环境下的复杂任务流。通过涵盖临床、法律、项目管理等13个专业领域的100项任务，ClawMark 为衡量智能体在时间线驱动、状态隐式变化及多模态证据处理等方面的综合性能提供了严谨的量化标准，对推动协作型智能体的实用化发展具有重要影响。

当前挑战

ClawMark 所针对的领域挑战在于如何系统评估智能体在动态、开放环境中的长期任务执行与跨工具协调能力，这超越了传统单轮对话或静态任务的测试范畴。在构建过程中，数据集面临多重技术挑战：需设计能够模拟真实工作流程的多阶段时间线任务，确保各阶段间的状态连贯性与隐式变化；需整合文件系统、邮件、日历等多种异构工具后端，并实现其间的数据同步与一致性；还需处理包含图像、音频、PDF等多模态原始证据，避免提供预处理的文本摘要以考验智能体的原始信息提取能力。这些挑战共同构成了对智能体鲁棒性与适应性的高标准检验。

常用场景

经典使用场景

在人工智能助手与协作代理的研究领域，ClawMark数据集被广泛用于评估多模态、多阶段智能体在真实工作场景中的持续决策能力。其经典使用场景聚焦于模拟跨13个专业领域的日常工作任务，例如临床助理需处理医疗记录与患者沟通，人力资源专员需协调招聘流程与员工数据，投资分析师需整合市场报告与财务表格。每个任务设计为1至3个工作日的时间线，智能体必须在文件系统、电子邮件、日历和协作工具等多环境间协调操作，并依据原始的多模态证据（如图像、音频、PDF文档）进行信息提取与推理，从而全面检验其在动态工作流中的适应性与效率。

解决学术问题

ClawMark数据集针对当前智能体研究中的若干核心学术问题提供了系统化的解决方案。它有效应对了长期任务中状态隐式变化的挑战，通过环境数据的阶段性突变（如新邮件到达、数据库更新）迫使模型主动刷新外部状态而非被动响应指令。该数据集摒弃了LLM作为评判者的主观性，采用严格的基于规则的确定性评分函数，确保了评估结果的百分百可复现性。其意义在于为多日、多环境协作代理的基准测试设立了新标准，推动了智能体在工具协调、跨模态信息融合与时间线管理方面的理论进展，为构建更可靠、实用的职场人工智能系统奠定了实证基础。

衍生相关工作

ClawMark数据集的发布催生了一系列围绕多日协作智能体评估的经典研究工作。其设计理念与工具集成方法借鉴并扩展了先前基准测试如MCPMark与Toolathlon的框架，特别是在Notion与Google Sheets模拟环境的凭证设置流程上进行了适应性改进。该数据集启发了对智能体长期记忆机制、跨工具状态一致性维护以及多模态证据理解能力的深入探索。相关研究进一步探讨了如何在时间线驱动的任务中优化智能体的规划策略，以及如何设计更鲁棒的规则检查器以替代LLM评判。这些衍生工作共同推动了协作代理评估范式的演进，使其从单一回合的简单交互迈向复杂、动态的真实世界模拟。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集