five

GUI-Robust

收藏
arXiv2025-06-17 更新2025-06-22 收录
下载链接:
https://github.com/chessbean1/GUI-Robust
下载链接
链接失效反馈
官方服务:
资源简介:
GUI-Robust是一个用于评估图形用户界面(GUI)代理在现实世界异常情况下的鲁棒性的综合数据集。该数据集包含5318个带注释的任务,来自392个不同的来源,包括网站和Windows桌面应用程序。特别地,它包括200个异常任务,涵盖7种日常GUI使用中常见的异常类型,如动作失败、登录页面、验证码页面、广告弹出、cookie弹出、页面加载和网络断开。GUI-Robust提供了广泛的任务和动作类型,包括点击、输入文本、从页面检索信息、打开新的网页或应用程序以及向人类报告异常。此外,它还涵盖了跨场景任务,跨越多个应用程序或网站,反映了更真实和复杂的工作流程,并覆盖了中文和英文软件环境。

GUI-Robust is a comprehensive dataset designed to evaluate the robustness of graphical user interface (GUI) agents under real-world anomalous scenarios. This dataset comprises 5,318 annotated tasks sourced from 392 distinct origins, including websites and Windows desktop applications. Specifically, it contains 200 anomalous tasks covering 7 common anomaly types frequently seen in daily GUI operations, such as action failures, login pages, CAPTCHA pages, advertisement pop-ups, cookie pop-ups, page loading anomalies, and network disconnections. GUI-Robust offers a diverse array of task and action types, encompassing clicking, text input, information retrieval from web pages, launching new webpages or applications, and reporting anomalies to human users. Furthermore, it includes cross-scenario tasks that span multiple applications or websites, mirroring more realistic and complex workflows, and supports both Chinese and English software environments.
提供机构:
浙江大学
创建时间:
2025-06-17
原始信息汇总

GUI-Robust数据集概述

数据集简介

  • 名称: GUI-Robust
  • 用途: 用于测试GUI代理在现实世界异常情况下的鲁棒性
  • 完整数据集地址: https://huggingface.co/datasets/kuangtie/GUI-Robust

评估脚本

  • 运行命令: bash python evaluation.py --model_name <YourModel> --eval_type step|task --task_type normal|abnormal --data_path <path_to_data_folder>

  • 评估模式:

    • step: 评估每步的基础准确性(动作准确性和坐标准确性)
    • task: 评估完整任务执行(动作准确性、坐标准确性和任务成功率)

模型集成

接口规范

  • 单步预测方法: python def pred_step_loc(step_description: str, screenshot_base64: str) -> dict

  • 全任务预测方法: python def pred_task_full(task_description: str, screenshot_list_base64: List[str]) -> List[dict]

预测输出格式

  • 元素坐标 (x, y)
  • 元素类型 (icon, text, box, none)
  • 动作类型及内容 (click, input, get_info, open, wait, human)

引用

bibtex @inproceedings{ yang2025guirobust, title={GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies}, author={Jingqi Yang and Zhilong Song and Jiawei Chen and Mingli Song and Sheng Zhou and Linjun Sun and Xiaogang Ouyang and Chun Chen and Can Wang}, booktitle={NeurIPS Datasets and Benchmarks Track}, year={2025}, url={https://openreview.net/forum?id=22gw3kITCd}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在图形用户界面(GUI)智能体研究领域,构建高质量的数据集对于基准测试和研究推进至关重要。GUI-Robust数据集采用了一种创新的半自动化构建范式,通过RPA工具记录自然用户交互行为,并借助多模态大语言模型(MLLMs)生成相应的步骤和任务描述。这一方法显著降低了人工标注的时间成本,效率提升了19倍以上。数据收集过程包括用户行为捕捉、动作识别、步骤和任务描述生成以及人工审核修正四个主要阶段,确保了数据的丰富性和真实性。
特点
GUI-Robust数据集在GUI智能体研究领域具有多项显著特点。首先,它包含了5,318个标注任务,覆盖了392个不同的网站和桌面应用程序,任务类型丰富多样,包括点击、文本输入、信息检索等。其次,数据集特别包含了200个异常任务,涵盖了7种常见的GUI异常场景,如登录页面、验证码页面、广告弹窗等,为评估智能体在真实环境中的鲁棒性提供了重要资源。此外,数据集还支持跨场景任务和多语言环境(中英文),进一步增强了其实用性和广泛性。
使用方法
GUI-Robust数据集为评估GUI智能体在元素定位、多步骤任务完成、跨场景执行以及异常条件下的鲁棒性提供了全面的基准。用户可以通过数据集提供的轻量级评估工具包快速评估现有模型或集成自己的模型。每个数据点以JSON文件格式存储,并附带一组PNG截图,详细记录了任务描述、步骤描述、元素位置、动作类型和内容等信息。评估脚本支持单步预测和全任务多步预测两种模式,能够自动调用模型接口并报告动作准确率、坐标准确率和任务成功率等关键指标。
背景与挑战
背景概述
GUI-Robust数据集由浙江大学与Intelligence Indeed的研究团队于2025年6月提出,旨在解决图形用户界面(GUI)智能体在真实异常场景下的鲁棒性评估问题。该数据集包含5,318个标注任务,涵盖392个不同来源的网站和桌面应用程序,特别包含200个涉及7类常见异常场景的任务,如操作失败、登录页面验证码等。通过半自动化数据收集范式RevAct(结合RPA工具与多模态大语言模型),该数据集将标注效率提升19倍,填补了现有GUI基准在真实环境异常处理能力评估上的空白,对推动工业级GUI自动化技术的发展具有重要意义。
当前挑战
GUI-Robust针对两大核心挑战:领域层面,现有GUI智能体在异常场景(如广告弹窗、网络中断)中性能骤降,缺乏系统化评估标准;构建层面,传统人工标注存在成本高、覆盖率有限的问题,且真实用户交互中的动态异常难以模拟。数据集通过多模态合成技术实现异常场景的规模化构建,但仍需解决复杂复合异常(如级联认证弹窗)的覆盖不足问题,以及静态评估与动态环境间的差距。
常用场景
经典使用场景
GUI-Robust数据集专为评估图形用户界面(GUI)代理在真实异常场景下的鲁棒性而设计。该数据集通过模拟七种常见的GUI异常情况,如操作失败、登录页面、验证码页面、广告弹窗等,为研究者提供了一个全面的测试平台。其经典使用场景包括在多模态大语言模型(MLLMs)和专用GUI代理的开发和评估中,用于测试模型在异常条件下的表现和适应性。
解决学术问题
GUI-Robust解决了现有GUI代理研究中的一个关键问题:缺乏对真实异常情况的鲁棒性评估。传统数据集通常在理想化条件下构建,忽略了实际部署中常见的异常情况。该数据集填补了这一空白,使研究者能够系统地评估代理在异常场景下的表现,从而推动更鲁棒、更可靠的GUI代理的开发。此外,该数据集还通过半自动化的数据收集方法显著降低了标注成本,为大规模高质量数据集的构建提供了新思路。
衍生相关工作
GUI-Robust数据集启发了多项相关研究,特别是在GUI代理的鲁棒性优化方面。例如,基于该数据集,研究者开发了新的异常检测和恢复算法,提升了代理在复杂环境中的表现。此外,该数据集还被用于评估和改进多模态大语言模型(如GPT-4o、Qwen2.5-VL等)在GUI任务中的视觉定位和任务完成能力。这些工作进一步推动了GUI自动化领域的发展,并为实际应用中的可靠性问题提供了解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作