DocOS

github2026-05-02 更新2026-05-15 收录

下载链接：

https://github.com/BUAA-IRIP-LLM/DocOS

下载链接

链接失效反馈

官方服务：

资源简介：

DocOS是一个基准，旨在评估GUI代理在动态、开放网络环境中进行文档引导问题解决的能力，它模拟人类问题解决过程，使代理能够自主搜索相关文档以处理长尾任务。数据收集包括任务构建、文档收集和任务过滤三个阶段，最终从数千候选任务中筛选出817个高质量任务。

DocOS is a benchmark designed to evaluate the capability of GUI agents to conduct document-guided problem-solving in dynamic, open web environments. It simulates the human problem-solving process, enabling agents to autonomously search for relevant documentation to handle long-tail tasks. The data collection comprises three stages: task construction, document collection, and task filtering. Finally, 817 high-quality tasks were screened out from thousands of candidate tasks.

创建时间：

2026-05-02

原始信息汇总

📘 DocOS 数据集概述

DocOS 是一个用于评估 GUI 智能体在动态开放网页环境中进行主动文档引导操作能力的基准测试数据集，已被 ICML 2026 接收。

🎯 核心目标

定义了一种新型范式：Proactive Document-Guided Action，即 GUI 智能体能够主动搜索相关文档来解决长尾任务，模拟人类的问题解决方式。
通过 DocOS 基准测试，全面评估智能体在全交互环境下的文档引导问题解决能力。

🔧 数据构建流程

数据集构建分为三个严谨的阶段：

任务构建
- 定义任务指令、前置条件，并根据执行步骤划分难度等级（简单、中等、困难）。
文档收集
- 使用自动化爬虫检索并解析官方文档，提取结构化的原始信息（如指令、标题等）。
任务筛选
- 经过严格的质控漏斗：验证语义一致性、无歧义性和可执行性。
- 从数千候选任务中筛选出 817 个高质量任务。

🗂️ 数据规模

最终任务数量：817 个高质量、可执行的 GUI 操作任务。
任务难度：分为 Easy、Medium、Hard 三个等级。

搜集汇总

数据集介绍

构建方式

DocOS数据集的构建遵循一套严谨且可扩展的三阶段流水线。首先，在任务构建阶段，研究团队以执行步骤为依据，系统性地定义了任务指令、前置条件与难度等级（分为简单、中等、困难三级），确保任务语义的丰富性与层次感。其次，在文档收集阶段，借助自动化爬虫工具检索并解析官方技术文档，从中提取结构化的原始信息，例如操作指南与标题层级。最后，在任务筛选阶段，通过严密的质量控制漏斗，对语义一致性、任务明确性与可执行性进行多重验证，最终从数千个候选任务中精心遴选出817个高质量任务，为基准测试的可靠性提供了坚实保障。

使用方法

DocOS数据集的使用方法聚焦于在动态网页环境中模拟真实用户交互，以评估GUI智能体的文档引导式自主决策能力。研究人员可通过加载数据集中的817个任务，为智能体提供明确的指令与前置条件，并让其在与环境的开放式互动中自主搜索、理解并应用相关官方文档来完成任务。评估过程需记录智能体的操作序列与任务完成状态，以衡量其文档检索效率、指令遵循度与问题解决成功率。推荐搭配自动化浏览器或图用户界面（GUI）测试框架进行部署，从而在完全可控的条件下复现基准评测，并支持跨模型与跨生态系统的对比分析。

背景与挑战

背景概述

在动态且开放的Web环境中，图形用户界面（GUI）代理的自主性与适应性成为智能系统研究的核心挑战。现有基准大多聚焦于预定义任务，难以评估代理面对长尾问题时的真实应变能力。为此，ICML 2026收录的DocOS基准应运而生，由研究团队构建，旨在探索一种名为“主动文档引导动作”的新范式。该基准通过让代理自主检索相关文档来解决问题，模拟人类在复杂场景中的推理过程，从而推动GUI代理从被动执行向主动决策的跨越。自发布以来，DocOS为智能代理在真实交互环境中的文档引导问题求解提供了标准化评估平台，对提升人机协作效率与系统鲁棒性具有重要意义。

当前挑战

DocOS所解决的领域核心挑战在于，传统GUI代理难以处理需要外部知识补充的长尾任务，而动态Web环境中的文档获取与实时解析进一步加剧了决策不确定性。在构建过程中，团队面临三重困难：首先，任务构建需兼顾指令的语义丰富性与执行步骤的量化分级，以确保Easy、Medium、Hard三级的区分度；其次，文档收集依赖自动爬虫从官方来源提取结构化信息，但面对千差万别的文档格式与导航路径，解析的准确性成为瓶颈；最后，任务筛选需通过语义一致性、无歧义性及可执行性等多维验证，从数千候选任务中精选出817个高质量样本，这一过程对人工校验与算法过滤的协同提出了严苛要求。

常用场景

经典使用场景

在动态开放的网络环境中，GUI代理常面临长尾任务与文档缺失的挑战，DocOS数据集应运而生。其经典使用场景在于评估代理在完全交互环境下自主检索并利用官方文档解决复杂GUI任务的能力。例如，代理需根据给定指令，如配置特定软件功能，主动爬取相关网页文档，提取关键步骤并执行操作，以完成从易到难的多级任务。这一过程模拟了人类查阅手册解决问题的范式，为衡量智能体在开放性任务中的文档引导行为提供了标准化基准。

解决学术问题

DocOS致力于解决现有GUI代理研究中任务构建语义模糊、文档依赖缺失及执行可复现性不足的学术难题。通过提出主动文档引导动作（Proactive Document-Guided Action）新范式，该数据集填补了代理在动态环境中缺乏系统性文档检索与利用评估的空白。其采用的三阶段流水线——任务构建、文档采集与严格筛选——确保了817个高质量任务的语义一致性、明确性与可执行性，为后续研究提供了可靠且可扩展的评价框架。这一工作推动了从封闭式指令遵循向开放式问题解决的范式转型。

实际应用

在实际应用中，DocOS数据集支撑了各类GUI代理系统在真实软件场景下的效能测试与优化，例如自动化部署、软件配置管理和用户界面工单处理等。开发者可借助此基准评估代理在复杂文档中提取关键信息并转化为精确操作的能力，从而迭代代理的文档检索、语义解析与动作规划模块。此外，该数据集也可用于训练更鲁棒的代理，使其在缺乏预设知识库的开放环境中，自主借助官方文档完成长尾任务，降低对人工专家系统的依赖，提升自动化运维的灵活性与适应力。

数据集最近研究