Workspace-Bench

Name: Workspace-Bench
Creator: 上海交通大学; 字节跳动; 麻省理工学院; 清华大学
Published: 2026-05-05 18:17:06
License: 暂无描述

arXiv2026-05-05 更新2026-05-08 收录

下载链接：

https://github.com/OpenDataBox/Workspace-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Workspace-Bench是由上海交通大学与字节跳动联合构建的大规模工作空间智能体评估基准，包含5种职业角色的真实数字工作环境，涵盖74种文件类型、20,476个文件（总容量达20GB）及其复杂的依赖关系。该数据集通过388个依赖驱动型任务（含7,399项评估细则）系统检验智能体在跨文件检索、上下文推理和自适应决策等方面的能力，并推出100任务的精简版本降低70%评估成本。其创新性体现在首次模拟真实办公场景中的文件谱系关系和语义关联，为突破当前智能体在异构文件理解与版本追踪等瓶颈问题提供标准化测试平台。

Workspace-Bench is a large-scale workspace AI Agent evaluation benchmark jointly constructed by Shanghai Jiao Tong University and ByteDance. It comprises realistic digital work environments for 5 occupational roles, covering 74 file types, 20,476 files with a total capacity of 20GB, and their complex dependency relationships. This benchmark systematically evaluates the capabilities of AI Agents in cross-file retrieval, contextual reasoning, adaptive decision-making and other aspects via 388 dependency-driven tasks, which include 7,399 evaluation metrics. Moreover, a lightweight 100-task variant is released to reduce the evaluation cost by 70%. Its core innovation lies in the first simulation of file lineage relationships and semantic associations in real office scenarios, providing a standardized test platform for breaking through current bottlenecks of AI Agents in heterogeneous file understanding, version tracking and other related fields.

提供机构：

上海交通大学; 字节跳动; 麻省理工学院; 清华大学

创建时间：

2026-05-05

原始信息汇总

数据集概述：Workspace-Bench 1.0

Workspace-Bench 是一个用于评估 AI 智能体在工作空间任务中处理大规模文件依赖关系的基准测试，旨在测试智能体的 工作空间学习 能力——即识别、推理、利用和更新工作空间中异构文件之间显式和隐式依赖关系的能力。

核心特点

真实工作场景：模拟真实工作空间，要求智能体独立探索目录、定位相关信息、理解跨文件关系并生成正确的交付成果。
对比其他基准：不同于将全部信息直接放入提示或仅提供少量任务特定文件的基准，Workspace-Bench 在具有大规模文件依赖的真实工作空间中进行评估。

数据集规模与组成

5 个 真实工作者画像：运营经理、物流经理、AI 产品经理、研究员、后端开发人员。
74 种 文件类型，覆盖多种异构工作空间环境。
20,476 个 文件，单个工作空间规模可达 20GB。
388 个 任务，每个任务均配有明确的文件依赖图。
7,399 条 细粒度评估标准（rubrics）。

轻量级子集

Workspace-Bench-Lite：包含 100 个 任务的子集，在保留基准分布的同时，将评估成本降低约 70%。

评估方式

使用面向能力的评估标准，不仅衡量最终结果的正确性，还衡量智能体导航复杂工作空间结构和文件关系的能力。

数据集发布状态

完整数据集即将发布，计划包含任务规格、输入文件、标准化输出格式以及评估脚本。

相关论文

论文链接：https://arxiv.org/abs/2605.03596

搜集汇总

数据集介绍

构建方式

Workspace-Bench 的构建遵循自上而下、两阶段混合式流水线。首先，依据运营经理、物流经理、AI产品经理、后端开发者和研究者五种真实职业角色，定义详细的人物画像，包括职责、典型工作流与文件使用模式。在此基础上，借助智能体生成反映角色特质的树状目录层级，并注入冗余文件夹、模糊命名和归档目录等结构性噪声以模拟真实工作空间。随后，采用语义驱动爬虫从公开来源检索与目录语义匹配的真实资源（如论文、代码库、报告），并利用大语言模型基于这些资源合成邮件、会议纪要等派生文件。领域专家最终审查文件系统的合理性、内容一致性与可支撑任务的关系网络，最终构建出包含20,476个文件、74种类型、容量达20GB的五套大型数字工作空间。

特点

该基准的核心特点在于其高保真关系型工作空间与依赖驱动的任务设计。工作空间覆盖74种异构文件类型（包括文档、电子表格、代码、配置、图像等），文件深度嵌套平均达3.7层，并包含多个历史版本以模拟真实的时间演化，迫使智能体进行主动导航而非扁平检索。在此基础上精心策划388项任务，每项任务均配有显式的文件依赖图，平均涉及4.7个文件和5.1条依赖边。任务难度依据所需能力维度划分为简易、中等、困难三级，要求智能体具备工作空间探索、任务支持文件利用、结果提供文件聚合、语义内容关系理解、异质文件理解及版本溯源六项核心能力，从而系统评估智能体在复杂关系型工作空间中的推理能力。

使用方法

使用Workspace-Bench时，研究者需将待测智能体部署至与目标用户画像匹配的隔离工作空间沙盒中。评估框架支持工作空间级与任务级双重并行加速，通过预克隆的多副本沙盒池实现动态调度。任务执行后，系统采用多策略文件提取技术——包括指令约束路径提取、统一副本集中检索及元数据模糊匹配——从海量文件中精准捕获输出。评估阶段采用Agent-as-a-Judge范式，利用Seed-2.0-Lite模型依据细粒度评分标准（每项任务平均19.1条）进行二元判定，覆盖基础合规性、过程合理性及结果正确性。此外，通过执行轨迹动态提取预测依赖图，并与真值图比较节点和边的F1分数，以衡量智能体的依赖识别能力。同时记录平均交互轮次与令牌消耗以评估效率。

背景与挑战

背景概述

Workspace-Bench 1.0由上海交通大学、字节跳动、麻省理工学院、清华大学等机构的研究人员于2026年联合创建，核心研究问题聚焦于评估AI智能体在真实工作空间中进行跨文件依赖学习与推理的能力。传统基准测试多基于预定义或合成文件，难以模拟实际工作中大规模的异构文件生态系统及其复杂依赖关系。该数据集通过构建涵盖5种职业角色、74种文件类型、总计20,476个文件（高达20GB）的真实工作空间，并精心设计388个依赖驱动型任务与7,399条评估准则，系统性地推动了AI智能体从孤立技能评估向工作空间感知推理的范式转变，对智能体在真实办公场景中的应用研究具有里程碑式的深远影响。

当前挑战

该数据集主要面临双重挑战。在领域问题层面，现有AI智能体在需要理解大规模文件间语义、版本衍生与聚合关系的真实办公任务中表现远逊于人类，最佳配置的评分通过率仅为68.7%，远低于人类专家的80.7%，尤其在高难度任务上性能退化显著，暴露出跨文件检索、上下文推理与自适应决策能力的根本性瓶颈。在数据集构建过程中，挑战在于如何通过自上而下的流水线模拟真实工作空间的深度嵌套目录结构、语义噪声及隐式依赖关系，同时确保人工标注的388个任务具备细粒度的依赖图与评估准则，要在海量多模态文件中保持任务逻辑与现实流程的一致性，并实现可复现的细粒度评估，这需要投入超过2500小时的高强度专家标注与交叉验证。

常用场景

经典使用场景

Workspace-Bench的核心应用在于衡量AI智能体在真实数字工作空间中的工作学习能力，特别是在海量异构文件间进行跨文件依赖推理的场景。该基准测试模拟了运营经理、物流经理、产品经理、后端开发者和研究员五种典型职场角色，构建了包含超过74种文件类型、20476个文件的复杂工作空间。通过388个精心设计的任务，每个任务都带有明确的文件依赖图，研究者可系统评估智能体在目录结构导航、语义关系捕获、版本溯源和异构文件理解等六个关键维度的表现。这使得Workspace-Bench成为首个能够细致刻画智能体在真实办公场景中跨文件检索、情境推理和自适应决策能力的权威评测平台，为衡量智能体从原子技能到工作空间感知推理的进化提供了关键标尺。

实际应用

在实际应用中，Workspace-Bench为开发可靠的企业级AI助手提供了关键的验证工具。它能够评估智能体在复杂办公任务中的真实表现，如跨部门财务对账、合规敏感报告生成、全球市场产品战略制定等高端工作流。通过对智能体在异构文件理解、版本追溯和跨模态信息关联等瓶颈能力的精确诊断，企业可以识别并改进AI助手在信息遗漏、逻辑不一致和事实错误等典型故障模式上的表现。此外，该基准还为AI系统在成本与效率的权衡上提供了量化依据，揭示了高效智能体组合（如OpenClaw搭配Opus-4.7）只需少量交互即可完成任务，而低效组合则陷入高昂的试错循环。这为企业在部署AI代理时进行合理选型和优化提供了科学指导，推动AI从局部辅助工具向真正的生产力代理演进。

衍生相关工作

Workspace-Bench衍生出了一系列里程碑式的相关工作，深刻影响了智能体评测领域的发展方向。其提出的工作空间学习五阶段演化框架（从数据不敏感执行到工作空间原生自演化）为理解智能体能力的渐进式提升提供了系统性理论模型。基于该基准，研究者开发了Workspace-Bench-Lite精简版本，在保持分布保真度的同时将评测成本降低约70%，使得更广泛的研究团队能够参与相关研究。此外，该工作催生了Agent-as-a-Judge范式的完善，利用智能体自身对执行轨迹、依赖图识别和细粒度评价指标进行评分，提升了评测的客观性和可扩展性。它所揭示的“编排奇点”和“数据关联鸿沟”等概念，为未来设计依赖感知型智能体架构提供了明确的技术突破方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集