VeriGUI

Name: VeriGUI
Creator: VeriGUI Team
Published: 2025-08-06 10:38:18
License: 暂无描述

arXiv2025-08-06 更新2025-08-08 收录

下载链接：

https://github.com/VeriGUI-Team/VeriGUI, https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI

下载链接

链接失效反馈

官方服务：

资源简介：

VeriGUI数据集旨在支持在现实计算机环境中研究和发展自主GUI代理。该数据集强调两个关键维度：长链复杂性和子任务级可验证性。长链复杂性意味着任务被分解成数百个相互依赖的子任务，每个子任务都可以作为有效的起点；子任务级可验证性允许在每个子任务中进行细致的评估，而不仅仅是最终结果。

The VeriGUI dataset is designed to support research and development of autonomous GUI agents in real-world computer environments. This dataset emphasizes two key dimensions: long-chain complexity and subtask-level verifiability. Long-chain complexity refers to a scenario where a task is decomposed into hundreds of interdependent subtasks, each of which can serve as a valid starting point. Subtask-level verifiability enables fine-grained evaluation at each individual subtask, rather than only focusing on the final outcome.

提供机构：

VeriGUI Team

创建时间：

2025-08-06

搜集汇总

数据集介绍

构建方式

VeriGUI数据集通过结合人工标注与语言模型生成技术构建，涵盖网页与桌面环境下的复杂任务轨迹。数据采集采用多阶段流程：首先由专家筛选种子指令，经大语言模型扩展生成候选任务后，人工审核确保任务可行性；随后通过专业标注员执行任务并记录完整的交互轨迹（包括屏幕截图、操作日志及子任务目标），所有数据经过自动化校验与人工复核双重质量控制，确保长期任务链的可靠性和子任务级可验证性。

使用方法

使用VeriGUI时需遵循POMDP框架，将GUI任务建模为部分可观测马尔可夫决策过程。研究者可通过加载任务指令集与人类演示轨迹，评估智能体在观察空间（网页DOM树/桌面截图）与动作空间（点击、输入等7类标准化操作）中的表现。基准测试支持任务成功率、完成率与动作效率等多维度指标，特别推荐采用子任务级验证机制分析中间结果。数据集兼容浏览器模拟器与真实操作系统环境，需配合提供的质量校验工具确保轨迹可复现性。

背景与挑战

背景概述

VeriGUI数据集由VeriGUI团队于2025年推出，旨在解决图形用户界面（GUI）自主代理在复杂长链任务中的性能评估问题。该数据集特别关注长链任务的复杂性和子任务级可验证性，涵盖了桌面和网页环境中的多样化任务轨迹。通过强调任务分解和中间结果的验证，VeriGUI为开发能够在真实计算机环境中执行复杂工作流的通用GUI代理提供了重要支持。其影响力主要体现在推动GUI代理在长期规划和多步决策能力方面的研究进展。

当前挑战

VeriGUI数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决GUI代理在长链任务中的性能评估问题，但现有代理在长期规划和多步决策方面仍存在显著不足。在构建过程中，确保子任务级可验证性以及收集涵盖数百个GUI操作的复杂任务轨迹是主要挑战。此外，跨平台（桌面和网页）任务的统一表示和标注也增加了数据集的构建难度。

常用场景

经典使用场景

VeriGUI数据集专为开发和评估基于图形用户界面（GUI）的自主智能代理而设计，尤其适用于处理长链复杂任务。其经典使用场景包括多步骤的信息检索、跨平台应用操作以及复杂的决策流程模拟。例如，代理需要在数百个GUI操作中分解任务，完成从网页数据提取到桌面应用配置的全流程操作，同时确保每个子任务的可验证性。

解决学术问题

VeriGUI解决了现有GUI数据集在长时程任务分解和中间状态验证方面的局限性。通过提供子任务级别的可验证性标注，该数据集支持对代理的规划能力、错误恢复机制以及跨平台泛化性进行细粒度评估。其意义在于填补了短时交互数据集与真实世界复杂工作流需求之间的鸿沟，为开发具备鲁棒决策能力的通用GUI代理奠定了基础。

实际应用

在实际应用中，VeriGUI可赋能金融数据分析、跨平台办公自动化等场景。例如代理需从网页抓取上市公司财报数据，经Excel计算后生成可视化图表并邮件发送，全程涉及浏览器操作、数据处理软件交互和邮件客户端控制。这种端到端的任务链验证了代理在真实工作环境中的实用性，尤其适用于需要人机协作的垂直领域。

数据集最近研究