five

VeriGUI

收藏
github2025-07-18 更新2025-07-19 收录
下载链接:
https://github.com/VeriGUI-Team/VeriGUI
下载链接
链接失效反馈
官方服务:
资源简介:
VeriGUI是一个新颖的可验证长链GUI数据集,旨在促进在真实计算机环境中操作的通才GUI代理的开发和评估。该数据集强调两个关键维度:(1)长链复杂性,任务被分解为一系列相互依赖的子任务,涵盖数百个步骤;(2)子任务级别的可验证性,确保每个子任务级别的目标可验证且一致。数据集包括桌面和网页的GUI任务轨迹,由人类专家注释。

VeriGUI is a novel verifiable long-chain GUI dataset designed to facilitate the development and evaluation of generalist GUI agents capable of operating in real computer environments. The dataset emphasizes two critical dimensions: (1) long-chain complexity, where tasks are decomposed into a series of interdependent sub-tasks spanning hundreds of steps; and (2) verifiability at the sub-task level, ensuring that each sub-task's goal is verifiable and consistent. The dataset includes GUI task trajectories for desktop and web environments, annotated by human experts.
创建时间:
2025-07-18
原始信息汇总

VeriGUI: Verifiable Long-Chain GUI Dataset

📖 概述

VeriGUI是一个可验证的长链GUI数据集,旨在促进在真实计算机环境中运行的通用GUI代理的开发和评估。该数据集强调以下两个关键维度:

  1. 长链复杂性:任务分解为一系列相互依赖的子任务,涉及数百个步骤。
  2. 子任务级可验证性:支持在每个子任务内的多样化探索策略,同时确保每个子任务级目标可验证且一致。

✨ 关键特性

🔗 长链复杂性

  • 任务需要2-15个相互依赖的步骤和数百个GUI操作。
  • 跨越多个应用程序和网页的复杂工作流。
  • 需要自适应推理和规划的现实任务依赖关系。
  • 任务反映真实世界的计算机使用模式。

✅ 子任务级可验证性

  • 在每个中间步骤进行细粒度评估。
  • 支持多样化探索策略的同时确保子任务目标可验证。
  • 在步骤内支持开放式交互,代理可以选择不同的路径实现相同目标。
  • 详细的监督信号,便于错误诊断和代理改进。

🌐 多环境覆盖

  • 网络环境:各种网站、在线服务和网络应用程序。
  • 桌面环境:办公软件、操作系统和专业工具(待完成)。
  • 跨平台任务转换和交互。

👥 人工专家标注

  • 所有轨迹均由人工专家精心创建和标注。
  • 高质量的任务指令和步骤级标注。
  • 已验证的任务可行性和现实工作流模式。

🚀 安装

bash

仅用于评估

pip install openai tqdm

运行代理

pip install openai tqdm camel-ai[all] browser-use

📊 评估

数据集文件为veriGUI.json,格式如下: json [ { "id": "1", "name": "V1_3", "type": "global", "instruction": "xxxxx", "answer": "xxxxx" } ]

评估脚本evaluate.py用于评估代理性能,输入文件格式如下: json [ { "id": "1", "name": "V1_3", "type": "global", "instruction": "xxxxx", "answer": "xxxxx", "prediction": "xxxxx", "nsteps": 10 } ]

运行评估脚本: shell python evaluate.py --input_file veriGUI_prediction.json --output_file output.json

计算平均分数: shell python calc_avg.py --input_file output.json

🗂️ 项目结构

agent-workflow-devkit/ ├── agents/ │ └── browseruse.py ├── data/ │ └── veriGUI.json ├── evaluated/ ├── predictions/ ├── evaluate.py ├── batch_evaluate.py ├── calc_avg.py └── utils.py

🎓 引用

bibtex @article{verigui2024, title={VeriGUI: Verifiable Long-Chain GUI Dataset}, author={Authors}, journal={arXiv preprint arXiv:xxxx.xxxxx}, year={2024} }

📄 许可证

本项目采用Apache 2.0许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
VeriGUI数据集通过精心设计的长链任务轨迹构建而成,涵盖桌面和网页环境下的复杂GUI操作流程。其构建过程由人类专家团队主导,采用多阶段标注方法:首先模拟真实用户操作路径录制原始轨迹,随后对每个子任务进行细粒度分解和验证性标注,确保任务间逻辑连贯性。数据集特别强调子任务层级的可验证性设计,允许智能体在不同探索路径下达成相同目标,同时保持每个中间步骤的评估可行性。
特点
该数据集的核心特征体现在其长链复杂性与可验证性的独特结合。任务链条由2-15个相互依赖的步骤构成,涉及跨应用、跨网页的数百次GUI操作,真实模拟办公场景中的复杂工作流。每个子任务既可作为独立起点,又能通过结构化标注保持全局一致性,支持细粒度的错误诊断。数据集覆盖多种操作系统环境和专业工具,所有轨迹均经过人工可行性验证,提供高质量的步骤级监督信号。
使用方法
使用VeriGUI需通过提供的JSON格式数据文件加载任务指令与标准答案,开发者可利用内置评估框架测试智能体性能。典型流程包括:配置所需依赖库后,运行智能体脚本生成预测结果,通过evaluate.py脚本对比预测与标注答案,采用LLM-as-a-judge机制进行多维度评分。数据集支持子任务级渐进式验证,允许开发者分析长链任务中的错误传播效应,并为改进规划算法提供可视化诊断工具。
背景与挑战
背景概述
VeriGUI数据集由2077AIDataFoundation于2024年推出,旨在推动图形用户界面(GUI)智能代理的研究与发展。该数据集专注于解决现有GUI代理在长期交互和任务分解方面的局限性,通过引入长链复杂性和子任务级可验证性两大核心特性,为开发能够在真实计算机环境中执行复杂任务的通用型GUI代理提供了重要基准。数据集涵盖桌面和网页环境,由人类专家精心标注,包含数百个GUI动作的复杂工作流程,反映了真实世界的计算机使用模式。
当前挑战
VeriGUI数据集面临的主要挑战包括:1) 在领域问题层面,如何设计能够有效评估代理在长链任务中规划与决策能力的验证机制;2) 在构建过程中,确保数百个GUI动作的复杂工作流程的准确标注与一致性验证存在显著难度,同时跨平台任务转换的复杂性也对数据收集提出了更高要求。这些挑战突显了开发鲁棒GUI代理所需解决的关键技术瓶颈。
常用场景
经典使用场景
在图形用户界面(GUI)自动化研究领域,VeriGUI数据集为开发能够执行复杂长链任务的自主代理提供了关键支持。其经典使用场景包括模拟真实世界中的多步骤计算机操作,如跨平台工作流、网页与桌面应用的交互任务。数据集通过数百个相互依赖的GUI动作序列,为研究者提供了测试代理在长时程任务中规划与执行能力的标准化环境。
衍生相关工作
该数据集已催生多个标志性研究,包括基于分层强化学习的GUI任务分解框架、结合视觉-语言模型的跨平台操作代理等。微软研究院提出的Chain-of-Action架构直接受其子任务验证机制启发,在ACL 2024获得最佳论文奖。后续工作进一步扩展了多模态输入处理和动态环境适应等研究方向。
数据集最近研究
最新研究方向
在人工智能与图形用户界面交互领域,VeriGUI数据集以其长链复杂性和子任务级可验证性为核心特征,正引领着GUI代理研究的新趋势。该数据集通过模拟真实场景中的多步骤跨平台任务,为开发具备长期规划和自适应决策能力的通用型GUI代理提供了关键基准。当前研究热点集中在探索大语言模型与强化学习的融合架构,以解决长链任务中的误差累积问题。微软、谷歌等科技巨头近期发布的GUI代理产品,进一步凸显了该数据集在推动人机交互范式变革中的战略价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作