LiveClawbench-trajectories

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/Mosi-AI/LiveClawbench-trajectories

下载链接

链接失效反馈

官方服务：

资源简介：

LiveClawBench 是一个用于评估大型语言模型（LLM）代理在复杂现实世界助理任务上表现的数据集。该数据集基于“三重轴复杂度框架”设计，包含30个手动构建的任务，涵盖7个主要领域和3个难度级别。数据集包含630条代理轨迹（7个模型 × 30个任务 × 3次运行），采用ATIF-v1.2格式存储。每条轨迹包含详细的交互步骤、模型元数据和任务复杂度信息。数据集适用于文本生成任务，特别关注代理在多服务依赖、初始状态污染、隐式目标解析和知识系统维护等复杂度因素下的表现。数据集还提供了详细的模型性能评估和领域特定分析。

创建时间：

2026-04-08

原始信息汇总

LiveClawBench-traj 数据集概述

基本信息

数据集名称: LiveClawBench-traj
版本: 0.1.0
许可证: MIT
任务类别: 文本生成
主要语言: 英语
标签: 智能体、基准测试、openclaw、轨迹、排行榜
数据规模: 小于1K
数据集地址: https://huggingface.co/datasets/Mosi-AI/LiveClawbench-trajectories

数据集内容

数据量: 包含630条智能体轨迹记录（7个模型 × 30个任务 × 3次运行）。
数据格式: 轨迹数据采用ATIF-v1.2（智能体轨迹交换格式）存储。
数据字段:
- 顶层记录包含sample_id、trajectory、model_name、case_id、ability_category、case_name、difficulty、domain、domains_multi、complexity_factor等字段。
- 轨迹对象包含schema_version、session_id、agent、steps、final_metrics等字段。
- 步骤模式区分用户步骤和智能体步骤，包含step_id、source、message、model_name、reasoning_content、tool_calls、observation、metrics等字段。

基准测试框架

核心目标: 评估LLM智能体在复杂、真实世界助理任务上的性能，探究智能体能力在任务叠加多种复杂性因素时的退化情况。
复杂性框架: 采用三重轴复杂性框架，定义了四个正交的复杂性因素：
- A1 — 跨服务依赖（环境轴）：在单个工作流中协调多个独立服务。
- A2 — 污染初始状态（环境轴）：环境初始状态已损坏，智能体必须先诊断并修复。
- B1 — 隐式目标解析（认知轴）：目标未明确说明，智能体必须推断约束或寻求澄清。
- B2 — 知识系统维护（认知轴）：创建、更新、解决冲突或管理持久性技能/知识库。
任务分布: 包含30个手动构建的任务，覆盖7个主要领域（电子商务与日常服务、文档与知识、通信与电子邮件、日历与任务管理、编码与软件开发、DevOps与环境修复、深度研究与报告）和3个难度级别（简单、中等、困难）。
难度校准: 难度标签基于经验校准，使用三个校准模型进行三次试验，计算每任务平均解决率并应用阈值。

排行榜结果

评估指标: 采用Avg@3（每个任务3次独立运行的平均值，再在30个任务上平均），分数从[0,1]重新缩放到[0,100]以便阅读。
整体性能: 评估了7个开源模型，整体平均分数从58.3到72.6不等。
关键发现:
- B1（隐式目标解析） 导致所有模型性能下降最严重（-28.7至-51.3）。
- A1（跨服务依赖） 持续降低所有模型性能（-10.9至-28.5），较小模型受影响更大。
- A2（污染初始状态） 结果不一：较大模型显著下降，而较小模型如GLM-5-Turbo和Qwen3.5-35B-A3B反而提升。
- B2（知识系统维护） 影响最小甚至呈正面影响。
领域性能:
- 编码与软件开发 领域准确率最高。
- DevOps与环境修复 是所有模型中最弱的领域。
- 日历与任务管理 表现差异极大。

评估设置

评估原则: 根据任务类型采用三种评估方法：基于脚本的验证、基于量规的评估、LLM作为评判者。
采样协议: 每个模型对30个任务中的每一个独立运行3次以获得Avg@3分数。
模型配置: 所有模型通过moonshot/提供者格式进行评估，启用推理模式。

使用方式

python import json from datasets import load_dataset

ds = load_dataset("Mosi-AI/LiveClawBench", split="v0.1.0")

引用

bibtex @article{liveclawbench2026, title={LiveClawBench: Benchmarking LLM Agents on Complex, Real-World Assistant Tasks}, author={Xiang Long and Li Du and Yilong Xu and Fangcheng Liu and Haoqing Wang and Ning Ding and Ziheng Li and Jianyuan Guo and Yehui Tang}, journal={arXiv preprint}, year={2026} }

搜集汇总

数据集介绍

构建方式

在智能体评估领域，LiveClawBench-trajectories数据集的构建体现了严谨的实证研究范式。其核心在于通过人工精心构造的30项任务，系统性地引入了“三重轴复杂性框架”。该框架定义了四个正交的复杂性因子：跨服务依赖、受污染的初始状态、隐式目标解析以及知识系统维护。任务在由Harbor编排的独立Docker容器中执行，通过OpenClaw智能体平台生成交互轨迹，并采用经验性校准方法，依据多个校准模型的平均解决率对任务难度进行客观标定，最终形成了涵盖七个主要领域、三个难度等级的基准测试集。

特点

该数据集的核心特征在于其多维度的结构化标注与丰富的轨迹信息。每条轨迹记录不仅包含任务执行结果，更完整保留了智能体与模拟环境交互的每一步动态，严格遵循ATIF-v1.2格式。数据集对每项任务均标注了明确的复杂性因子组合、所属领域及经验校准的难度等级，使得研究者能够深入分析不同复杂性来源对智能体性能的具体影响。其包含的630条轨迹（7个模型×30项任务×3次运行）为理解智能体在面临跨服务协调、环境修复、目标推断等现实挑战时的行为模式与失败原因提供了高保真的微观数据基础。

使用方法

该数据集主要服务于大语言模型智能体的能力评估与行为分析研究。使用者可通过HuggingFace的`datasets`库直接加载，便捷地访问每条轨迹的元数据与完整的交互序列。研究应用可聚焦于多个方向：一是利用轨迹数据对智能体在不同复杂性因子下的性能退化进行归因分析；二是通过分析步骤序列中的推理内容与工具调用，剖析智能体的决策逻辑与常见错误模式；三是作为训练数据，用于提升智能体在复杂、长程任务中的规划与执行能力。数据集的结构化设计使得跨模型、跨任务的对比研究与细粒度评估成为可能。

背景与挑战

背景概述

随着大语言模型代理在现实世界助理任务中的应用日益广泛，例如航班预订、邮件管理、代码调试和知识库维护，评估其综合能力的需求变得尤为迫切。LiveClawBench数据集由Mosi-AI研究团队于2026年创建，旨在填补现有基准测试的空白。该数据集通过引入三重轴复杂度框架，构建了包含30个手动设计任务的试点基准，核心研究问题聚焦于大语言模型代理在面临多重复杂性因素叠加的真实场景任务中的性能表现及其能力退化机制。这一工作为智能代理系统的评估提供了结构化、可量化的新范式，推动了人机交互与自动化助手领域的研究进展。

当前挑战

LiveClawBench数据集致力于解决现实世界助理任务中智能代理的综合性能评估挑战，其核心在于量化代理在跨服务依赖、污染初始状态、隐式目标解析和知识系统维护等多重复杂性因素下的能力边界。构建过程中的主要挑战包括：设计具有明确因素注释且可控配对的多样化任务，确保任务环境在确定性模拟中的可复现性；开发涵盖脚本验证、基于规则的评估和LLM即法官的混合评估体系，以准确衡量开放结局任务的质量；以及通过经验校准而非主观分配来确定任务难度等级，保证基准的客观性与科学性。

常用场景

经典使用场景

在智能体研究领域，LiveClawBench-trajectories数据集为评估大型语言模型智能体在复杂现实任务中的表现提供了标准化的轨迹数据。该数据集最经典的使用场景是作为基准测试工具，用于系统性地分析智能体在跨服务依赖、初始状态污染、隐式目标解析和知识系统维护等多重复杂性因素叠加环境下的行为模式与性能瓶颈。研究者通过解析630条结构化轨迹记录，能够深入探究智能体在电子商务、文档处理、软件开发等七大现实领域的决策逻辑与执行路径，为智能体架构设计与能力评估提供实证依据。

实际应用

在实际应用层面，该数据集轨迹数据可直接用于智能体系统的迭代优化与故障诊断。工程团队能够通过分析智能体在跨服务协调、环境修复等复杂场景中的错误轨迹，针对性改进工具调用策略与状态管理机制。企业级智能助手开发者可利用该数据集校准模型在日历管理、知识库维护等专业领域的性能表现，优化任务分解与执行流程。教育机构亦可将其作为智能体课程的教学案例，帮助学生理解现实任务中复杂性因素对决策过程的具体影响。

衍生相关工作

基于该数据集衍生的经典工作主要集中在智能体架构创新与评估方法拓展两个方向。研究者利用轨迹数据开发了新型的反思机制与工具学习算法，显著提升了智能体在隐式目标场景下的推理能力。同时，该数据集启发了多智能体协作评估框架的构建，推动了从单智能体基准向群体智能评估的范式演进。在可解释性研究领域，学者通过对轨迹中思维链与工具调用序列的关联分析，提出了智能体决策透明度的量化指标，为负责任人工智能发展提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集