Workspace-Bench

github2026-05-06 更新2026-05-07 收录

下载链接：

https://github.com/OpenDataBox/Workspace-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Workspace-Bench 1.0是一个用于评估AI代理在具有大规模文件依赖的工作空间任务上的基准测试。它旨在研究一种称为工作空间学习的能力：代理是否能够识别、推理、利用和更新真实工作者工作空间中的显式和隐式文件依赖关系。该基准测试包含5个现实工作者配置文件、74种文件类型、20,476个文件（工作空间大小高达20GB）、388个任务（每个任务配有显式文件依赖图）和7,399个细粒度评估标准。

Workspace-Bench 1.0 is a benchmark for evaluating AI Agents on workspace tasks with large-scale file dependencies. It aims to investigate a capability termed workspace learning: whether an AI Agent can identify, reason about, leverage, and update both explicit and implicit file dependencies in real-world worker workspaces. This benchmark includes 5 real-world worker profiles, 74 file types, 20,476 files (with a maximum workspace size of 20GB), 388 tasks each paired with an explicit file dependency graph, and 7,399 fine-grained evaluation criteria.

创建时间：

2026-05-04

原始信息汇总

数据集概述

Workspace-Bench 1.0 是一个用于评估 AI agent 在具有大规模文件依赖关系的工作空间任务中的基准测试。该基准的核心是评估一种称为 Workspace Learning 的能力：即 agent 能否识别、推理、利用和更新真实工作空间中异构文件之间的显式和隐式依赖关系。

核心特点

与现实工作空间高度一致，agent 需自主探索目录、定位相关证据、理解跨文件关系并生成正确交付物。
聚焦真实工作场景行为，而非孤立的工具使用或单文件问答。

数据集规模

维度	数值
工作角色	5 个（运营经理、物流经理、AI产品经理、研究员、后端开发）
文件类型	74 种
文件总数	20,476 个
工作空间最大规模	20 GB
任务总数	388 个
细粒度评分标准	7,399 条

Lite 子集

Workspace-Bench-Lite: 包含 100 个任务，在保留原基准分布的同时，可将评估成本降低约 70%。

发布状态

完整数据集、任务规格、输入文件、标准化输出格式和评估脚本 即将发布。

引用

论文链接：https://arxiv.org/abs/2605.03596
BibTeX 引用格式见前述 README 内容。

搜集汇总

数据集介绍

构建方式

Workspace-Bench的构建旨在评估AI代理在具有大规模文件依赖性的工作空间任务中的表现。该数据集以现实工作场所行为为核心，模拟了运营经理、物流经理、AI产品经理、研究员和后端开发工程师等五种真实职业角色的工作环境。通过构建包含20,476个文件、覆盖74种文件类型、规模高达20GB的异构工作空间，每个任务均配有显式的文件依赖图。为全面评估代理能力，数据集设计了7,399个细粒度评分标准，并在此基础上提炼出Workspace-Bench-Lite子集，在保持基准分布的同时将评估成本降低约70%。

特点

Workspace-Bench的显著特点在于其对现实工作空间复杂性的高度模拟。数据集不仅涵盖多种专业角色和难度等级，更通过丰富的文件间依赖结构（如任务所需文件数、依赖边数等指标）体现了评估的多样性。与将信息直接置于提示词中的基准不同，Workspace-Bench要求代理独立探索目录、定位相关证据、理解跨文件关系并生成正确交付物，从而衡量其在复杂工作空间中的学习能力，即识别、推理、利用和更新异构文件间显式与隐式依赖的能力。

使用方法

目前，Workspace-Bench完整数据集的发布尚在筹备中，包括任务规格、输入文件、标准化输出格式及评估脚本。用户可通过提供的GitHub页面获取最新信息，并参考arXiv论文（网址：https://arxiv.org/abs/2605.03596）了解详细设计。待公开后，用户可配合发布的任务资产、输出规范及基准测试脚本，在完整数据集或Workspace-Bench-Lite子集上运行AI代理，并利用细粒度评分标准进行系统化评估。研究成果引用时，请引用相应的arXiv论文。

背景与挑战

背景概述

在人工智能代理（AI Agent）领域，现有基准测试多聚焦于单文件问答或简单工具调用，未能真实反映复杂工作场景中跨异构文件的协同推理能力。为此，Zirui Tang、Xuanhe Zhou等研究团队于2026年提出了Workspace-Bench 1.0基准，旨在衡量AI代理在大型文件依赖工作空间中的“工作空间学习”能力——即识别、推理、利用并更新多个异构文件间显式及隐式依赖关系的能力。该基准涵盖5种真实职业角色（如运营经理、AI产品经理）、74种文件类型、20476个文件（规模可达20GB）、388个任务及7399个细粒度评估指标，并提供了100个任务的轻量级子集Workspace-Bench-Line，在保持分布的同时降低约70%评估成本。作为首个系统性评估代理在真实工作空间内自主探索、跨文件关系理解与交付物生成能力的基准，Workspace-Bench为AI在办公自动化等领域的应用研究提供了重要测试平台。

当前挑战

Workspace-Bench所针对的领域挑战在于：现有AI代理评估无法模拟真实工作中大规模、异构文件间的复杂依赖关系，导致代理在自主导航目录、定位相关证据、理解跨文件关系并生成正确交付物方面表现薄弱。构建该基准的过程中，研究团队面临多重困难：首先，需设计包含真实职业角色与场景的工作空间，确保文件类型（74种）、规模（20GB）及依赖关系（每任务含显式依赖图）的多样性与逼真性，这要求深入调研各职业的文件使用模式；其次，构建388个任务及7399个细粒度评估指标，需平衡任务难度、文件类型分布与职业角色覆盖，避免偏向某一模式；此外，还需开发能自动评估代理路径、工具调用、推理过程及最终输出质量的标准化评价体系，这对跨文件交互的自动化评分提出了技术挑战。

常用场景

经典使用场景

在人工智能代理的评估体系中，Workspace-Bench的经典使用场景在于模拟真实工作环境中大规模文件依赖下的复杂任务执行。该基准测试通过构建涵盖运营经理、物流经理、AI产品经理、研究员和后台开发人员等五种专业角色的工作空间，包含74种文件类型及超过2万个文件，并基于显式文件依赖图设计了388项任务。研究者可将AI代理部署于这些高保真工作空间中，测试其在无需预先提示的情况下自主探索目录结构、定位跨文件关联证据、理解隐含依赖并最终生成正确交付物的能力。这种设置超越了传统将全部信息注入提示词或仅提供少量任务特定文件的评估范式，为检验代理在异构文件生态系统中的真实工作素养提供了严谨平台。

实际应用

在实际应用层面，Workspace-Bench为AI代理在企业级办公自动化、多角色协作平台和智能文档处理系统等场景中的落地提供了验证工具。例如，企业可将该基准用于评估自动化运维助手在包含配置、日志、脚本等数十种文件类型的服务器工作区中，能否快速诊断跨文件依赖导致的故障并执行修复任务。在项目管理领域，AI产品经理代理通过Workspace-Bench的测试，可以验证其在包含需求文档、技术方案、进度表格和会议纪要的混合工作区内，是否具备提炼决策关键信息并生成综合报告的能力。此外，该数据集还可服务于教育科技领域，用于训练学生开发的AI代理在模拟真实办公环境中处理复杂任务的能力，从而缩短从实验室到生产环境的鸿沟。

衍生相关工作

Workspace-Bench的发布催生了一系列衍生性研究工作，主要集中在三个方面。首先是代理工作空间学习架构的设计，研究者借鉴基准中的文件依赖图构建了基于图神经网络的代理记忆模块，使得代理能够主动构建和更新跨文件的依赖性表示，从而提升在异构文件集合中的推理效率。其次，基于任务难度分布和量规评估，部分工作探索了分层强化学习方法，将复杂的高依赖任务分解为子目标，并通过内部奖励机制逐步优化代理的探索策略。此外，Workspace-Bench-Lite子集的提出也激发了关于基准评估效率与保真度权衡的研究，有学者设计了自适应任务采样算法，在保持评估分布代表性的前提下将测试成本降低约70%，为大规模代理模型的周期性评估提供了经济可行的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集