WorldGUI
收藏github2025-02-27 更新2025-02-28 收录
下载链接:
https://github.com/showlab/WorldGUI
下载链接
链接失效反馈官方服务:
资源简介:
WorldGUI是一个新颖的GUI基准,它设计了具有各种初始状态的GUI任务以模拟真实世界的用户计算机交互。与之前的基准OSWorld、AssistGUI、WindowsAgentArena不同,WorldGUI允许构建每个任务的不同初始状态,这更能反映计算机使用环境的复杂性和动态性。
WorldGUI is a novel GUI benchmark that designs GUI tasks with various initial states to simulate real-world user computer interactions. Unlike previous benchmarks such as OSWorld, AssistGUI, and WindowsAgentArena, WorldGUI enables the generation of distinct initial states for each individual task, which better captures the complexity and dynamics of real-world computer usage environments.
创建时间:
2025-02-12
原始信息汇总
数据集概述:WorldGUI
基本信息
- 数据集名称: WorldGUI
- 发布日期: 2025年2月13日
- 相关论文: WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
- 项目页面: https://showlab.github.io/GUI-Thinker
数据集特点
- 动态测试: 专注于全面的桌面GUI自动化测试
- 基准测试: 包含WorldGUI Benchmark (meta task)
- 性能对比: 与其他最先进的桌面GUI代理进行比较
核心组件
- GUI解析器: 使用Google OCR和PyAutoGUI提取元素基础信息
- 状态感知规划器: 接收截图和教学视频生成计划
- 规划器-批评家: 完善初始计划
- 步骤检查: 验证任务完成情况和冗余性
- 执行器: 将动作描述转换为可执行代码
- 执行器-批评家: 通过比较前后截图检查任务完成状态
关键特性
- 高性能: 在WorldGUI基准测试中超越Claude-3.5 Computer Use 14.9%
- 通用LMM支持: 支持多种大型多模态模型(OpenAI, Anthropic, Gemini)
- 灵活交互: 支持教学视频输入和非教学视频输入
- 易部署: 无需Docker或虚拟机
更新日志
- 2025.03.11: 发布快速版本,支持Claude-3.5-Sonnet和Claude-3.7-Sonnet
- 2025.03.08: 添加GUI-Thinker演示
- 2025.03.05: 支持教学视频和非视频输入,发布本地运行代码
未来计划
- 开发基于Gradio的用户友好界面
- 支持本地运行模型(ShowUI或UI-TARS)
- 开发Huggingface在线演示
相关项目
引用信息
bibtex @misc{zhao2025worldguidynamictestingcomprehensive, title={WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation}, author={Henry Hengyuan Zhao and Difei Gao and Mike Zheng Shou}, year={2025}, eprint={2502.08047}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2502.08047}, }
联系方式
- 主要联系人: Henry Hengyuan Zhao (NUS)
- 邮箱: hubylidayuan@gmail.com
- 问题反馈: 通过GitHub仓库提交issue
搜集汇总
数据集介绍

构建方式
WorldGUI数据集的构建,旨在模拟真实用户与计算机交互的环境。该数据集通过设计具有不同初始状态的GUI任务,不仅包含了用户查询、教学视频,还包含了前置操作,这些前置操作导致了任务的不同初始状态,从而更真实、更具挑战性地反映了计算机使用环境的复杂性和动态性。
特点
WorldGUI数据集的特点在于其任务的初始状态多样性,这种设计使得数据集能够更好地模拟现实世界的测试过程。此外,数据集还包含了一个新的代理框架GUI-Thinker,该框架利用评估机制有效地管理GUI交互的不确定性和复杂性。
使用方法
使用WorldGUI数据集,首先需要进行环境设置,随后可以利用该数据集提供的多样化任务进行代理的测试和训练。用户可以通过查询、教学视频和前置操作来理解和执行任务,同时利用GUI-Thinker代理框架进行交互的评估和优化。
背景与挑战
背景概述
WorldGUI数据集,于2025年2月13日由Henry Hengyuan Zhao、Difei Gao和Mike Zheng Shou等研究人员发布,旨在为桌面GUI自动化提供一个动态且全面的测试平台。该数据集模拟真实用户与计算机的交互,设计具有各种初始状态的GUI任务,以反映计算机使用环境的复杂性和动态性。WorldGUI的推出,不仅为GUI自动化领域带来了新的研究视角,而且对提升人工智能在图形用户界面交互中的适应性和智能水平具有重要影响。
当前挑战
该数据集在构建过程中,面临着如何真实模拟用户多样化操作习惯和复杂场景的挑战。此外,在研究领域中,如何有效评估和提升GUI自动化代理在动态环境下的性能,以及构建能够处理不可预测性和复杂性的新型代理框架,成为了当前的研究难点。
常用场景
经典使用场景
在计算机使用环境模拟与评估领域,WorldGUI数据集提供了一个新颖的图形用户界面(GUI)基准,设计用于模拟真实用户与计算机的交互。该数据集通过为每项任务设置不同的初始状态,使得任务执行更为接近现实环境,从而为研究者在GUI任务执行与智能代理评估方面提供了一个经典的使用场景。
衍生相关工作
基于WorldGUI数据集,研究者们已开发出GUI-Thinker等新型智能代理框架,通过集成规划、评估和执行模块,实现了对GUI交互的更有效管理。此外,该数据集的发布也推动了更多关于动态GUI任务执行和智能代理评估的研究工作。
数据集最近研究
最新研究方向
在桌面GUI自动化领域,WorldGUI数据集通过设计具有不同初始状态的GUI任务,以模拟真实用户计算机交互,为评估自动化代理的动态性和复杂性提供了更为现实和挑战性的测试环境。该数据集的发布,标志着研究者在模拟真实世界计算机使用环境方面迈出了新的一步。同时,研究团队开发了一种新的代理框架GUI-Thinker,通过引入批判机制,有效管理GUI交互的不确定性和复杂性,为该领域的前沿研究方向——构建更加智能和自适应的GUI自动化代理提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



