OS-Marathon

Name: OS-Marathon
Creator: 牛津大学; 微软; 佐治亚理工学院
Published: 2026-01-28 22:35:23
License: 暂无描述

arXiv2026-01-28 更新2026-01-30 收录

下载链接：

https://os-marathon.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OS-Marathon是由微软、牛津大学等机构联合构建的基准测试数据集，专注于评估计算机使用代理（CUA）在长周期重复性任务中的性能。该数据集包含242项任务，覆盖费用报告和成绩单处理两大领域，数据来源融合了真实收据、OCR数据集及合成生成的高保真文档，通过模块化模板和LLM生成技术确保数据多样性和逻辑一致性。其核心目标是解决现有代理在长流程任务中逻辑连贯性、幻觉规避及子任务一致性维护等关键挑战，为自动化办公场景提供标准化评估框架。

OS-Marathon is a benchmark dataset jointly constructed by Microsoft, University of Oxford and other institutions, focusing on evaluating the performance of Computer Use Agents (CUA) in long-cycle repetitive tasks. This dataset includes 242 tasks covering two major fields: expense report processing and transcript handling. Its data sources integrate real receipts, OCR datasets and synthetic high-fidelity documents, with data diversity and logical consistency ensured via modular templates and Large Language Model (LLM) generation technologies. Its core objective is to address key challenges faced by existing agents in long-process tasks, such as logical coherence, hallucination avoidance and subtask consistency maintenance, providing a standardized evaluation framework for automated office scenarios.

提供机构：

牛津大学; 微软; 佐治亚理工学院

创建时间：

2026-01-28

原始信息汇总

OS-Marathon 数据集概述

数据集基本信息

数据集名称：OS-Marathon
核心目标：评估计算机使用代理在长视野、重复性任务上的性能。
发布日期：2026年1月29日（论文发布于arXiv），网站于2026年1月28日发布。
作者与机构：
- Jing Wu (University of Oxford)
- Daphne Barretto (Microsoft)
- Yiye Chen (Georgia Institute of Technology)
- Nicholas Gydé (Microsoft)
- Yanan Jian (Microsoft)
- Yuhang He (Microsoft)
- Vibhav Vineet (Microsoft)
- *标注为在微软实习期间完成的工作，‡标注为在微软雇佣期间完成的工作。
资源链接：
- arXiv: 可用
- 代码: 可用
- 任务数据: 在HuggingFace上可用
- BibTeX: 可用
当前状态：代码和数据正在内部审核中，即将发布。

数据集任务与范围

任务类型：长视野、重复性工作流。
应用场景：处理专业场景中的重复性任务，例如根据收据处理费用报告、根据试卷录入学生成绩。
核心挑战：针对此类任务，计算机使用代理面临三个关键挑战：
1. 逻辑不连贯：代理无法理解子工作流的底层逻辑，经常以错误的顺序执行任务。
2. 幻觉：代理在尝试填充系统字段时经常产生幻觉。
3. 长视野不一致性：代理无法规划完成整个工作流所需的完整迭代轨迹。

基准测试构成

领域数量：2个（用于日常长视野重复性任务）。
任务总数：242个长视野重复性任务。
难度等级：7个。
完全功能执行环境：7个。

详细统计

领域	等级	难度等级标准	#执行环境	#任务	任务可扩展？	#收据
费用报告	L1	5	5	30	是
	L2	5		30
	L3	~15		50
	L4	~30		50
成绩单记录	L1	1	1	2	18	是
	L2	2	1	30
	L3	/	>1	34

方法

提出方法：少样本浓缩工作流演示（Few-shot Condensed Workflow Demonstration, F CWD）。
方法描述：通过从少量样本数据中抽象出工作流的关键步骤来构建浓缩的人类演示，以指导计算机使用代理的推理。

实验结果

定性结果

展示了多种基线计算机使用代理在基准测试上的表现，并指出了存在的问题（如逻辑不连贯、幻觉、长视野不一致性）。

定量结果

在费用报告和成绩单领域的第1级和第2级任务上，评估了代理和人类的子工作流准确性和成功率。

费用报告领域：在网站和电子表格环境中，比较了人类操作员、基线代理和所提出代理的性能。
成绩单领域：比较了人类操作员、基线代理和所提出代理在子工作流准确性和成功率上的表现。

数据

数据生成：通过合成数据生成流程创建可视化数据样本。
数据样本类型：包括汽车租赁电子邮件收据、食品收据、航班收据、成绩单等多种类型的合成收据和文档。

引用格式

bibtex @article{wu2026OS-Marathon, title={OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks}, author={Wu, Jing and Barretto, Daphne and Chen, Yiye and Gydé, Nicholas and Jian, Yanan and He, Yuhang and Vineet, Vibhav}, journal={arXiv}, year={2026} }

搜集汇总

数据集介绍

构建方式

在计算机使用代理（CUA）评估领域，针对长视野、重复性工作流程的标准化基准尚属空白。OS-Marathon基准的构建旨在填补这一空白，其设计涵盖两个核心领域——费用报告与成绩单处理，并包含七个不同的执行环境。数据集的构建采用了混合数据策略，整合了真实世界数据与合成数据，以确保评估的多样性与真实性。真实数据来源于公开的OCR数据集及网络采集的收据与成绩单，而合成数据则通过基于模板的流水线生成，利用大型语言模型合成用户资料与交易数据，并通过HTML渲染模板模拟真实文档的视觉格式。这一构建方式不仅保证了数据的视觉真实性与逻辑一致性，也为长视野、重复性任务提供了可扩展且可控的评估场景。

特点

OS-Marathon数据集的核心特点在于其专注于长视野、重复性工作流程的评估，这在现有基准中较为罕见。数据集包含242项任务，根据任务视野长度与文档复杂度划分为多个难度等级，实现了细粒度的性能评估。其执行环境多样，涵盖功能完整的基于Web的系统与本地电子表格应用，模拟了真实世界中的专业场景。此外，数据集引入了子工作流准确度（SWA）等新型评估指标，能够有效衡量代理在长序列动作中的部分进展与可靠性，弥补了传统二进制成功率指标的不足。这些特点共同使OS-Marathon成为一个全面、严谨且面向实际应用的基准测试平台。

使用方法

使用OS-Marathon数据集进行评估时，研究者首先需在标准化的Ubuntu环境中部署任务，该环境基于OSWorld基础设施构建。评估通常涉及将先进的计算机使用代理（如AgentS2.5、OpenCUA等）应用于选定的任务子集，并按照定义的难度等级进行测试。为了有效提升代理在长视野任务中的性能，数据集论文提出了少样本浓缩工作流演示（FCWD）方法。该方法通过从少量数据样本中抽象出工作流的关键步骤，构建一个浓缩的演示，以教导代理底层的工作流逻辑，使其能够将所学逻辑推广到未见过的数据集合上。评估过程中，除了记录最终成功率，更需重点关注子工作流准确度等细粒度指标，以全面分析代理在长视野、重复性执行中的能力与局限。

背景与挑战

背景概述

OS-Marathon数据集由牛津大学、微软及佐治亚理工学院的研究团队于2026年联合创建，旨在填补计算机使用智能体在长视野、重复性工作流评估方面的空白。该数据集聚焦于模拟专业场景中的重复性任务，如处理报销单据与录入学生成绩，通过定义包含242项任务的标准化基准，系统评估智能体在迭代处理异构数据时的性能。其核心研究问题在于如何形式化长视野重复性任务，并建立有效的评估体系以推动智能体在复杂工作流中的自动化能力发展，为相关领域提供了首个针对此类任务的评测基准，显著促进了智能体在现实办公自动化场景中的研究进展。

当前挑战

OS-Marathon数据集所针对的领域问题在于评估计算机使用智能体执行长视野、重复性工作流的能力，其核心挑战包括智能体在逻辑连贯性、规划幻觉与长视野一致性方面的不足。具体而言，智能体常因无法理解子工作流的固有逻辑而执行顺序混乱，在未提取源数据时即幻觉式填充系统字段，且难以维持跨子工作流的迭代一致性，导致过早终止任务。在数据集构建过程中，挑战主要源于真实与合成数据的融合，需确保文档的视觉真实性与逻辑一致性，同时设计涵盖多难度层级与异构执行环境的任务流水线，以全面反映现实场景的复杂性。

常用场景

经典使用场景

在计算机使用代理（CUA）研究领域，评估模型处理长周期、重复性工作流程的能力一直缺乏标准化基准。OS-Marathon数据集应运而生，专门用于模拟和评估代理在诸如批量处理报销单据或录入学生成绩单等现实场景中的表现。该数据集通过构建涵盖费用报告和成绩单转换两大领域的242项任务，并设计包括网页系统和本地电子表格在内的七种执行环境，为研究者提供了一个结构化的测试平台，用以精确衡量代理在长时间、多步骤的重复操作中的规划、执行与一致性保持能力。

解决学术问题

OS-Marathon数据集主要解决了智能体研究中长周期任务评估标准缺失的核心瓶颈。它通过形式化定义长周期重复任务，并引入细粒度的子工作流准确率等评估指标，使得研究者能够系统性地诊断代理在复杂工作流中常见的逻辑不连贯、幻觉和长周期不一致性三大失效模式。该数据集的建立不仅为对比不同CUA模型的性能提供了统一尺度，其提出的少样本浓缩工作流演示方法，也为探索如何高效地将人类工作逻辑迁移给代理这一关键学术问题提供了实证基础，推动了基于演示的上下文学习在长周期任务中的应用研究。

衍生相关工作

OS-Marathon的发布为长周期CUA任务研究设立了新的标杆，并已催生了一系列相关探索。其构建基于OSWorld基准，并推动了针对长周期挑战的专用评估方法发展。数据集论文中提出的少样本浓缩工作流演示策略，为后续研究如何以低成本方式将人类工作逻辑注入代理提供了重要范例。此外，该基准揭示的代理在长周期任务中的共性缺陷，也激励了学术界在改进代理的全局规划能力、跨子工作流的上下文保持机制以及更鲁棒的演示集成方法等方面进行更深入的探索，成为连接短周期任务研究与复杂现实工作流自动化之间的关键桥梁。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集