GUIMid

github2025-05-03 更新2025-05-04 收录

下载链接：

https://github.com/hkust-nlp/GUIMid

下载链接

链接失效反馈

官方服务：

资源简介：

图形用户界面（GUI）代理的性能通常受限于高质量轨迹数据的稀缺性。为了解决这一限制，我们提出了在专门的中期训练阶段对视觉语言模型（VLMs）进行数据丰富、推理密集型任务的训练，并研究了将这些任务纳入中期训练阶段如何促进对GUI规划场景的泛化。我们发布我们的中期训练数据以供进一步研究。

The performance of graphical user interface (GUI) agents is often limited by the scarcity of high-quality trajectory data. To address this limitation, we propose training vision-language models (VLMs) on data-augmented, reasoning-intensive tasks during a dedicated intermediate training phase, and investigate how incorporating such tasks into this phase facilitates generalization to GUI planning scenarios. We release our intermediate training data for further research.

创建时间：

2025-04-10

原始信息汇总

GUIMid 数据集概述

数据集简介

目的：解决图形用户界面(GUI)智能体因高质量轨迹数据稀缺而性能受限的问题。
方法：通过在专门的中期训练阶段训练视觉语言模型(VLMs)来处理数据丰富、推理密集的任务。
关键发现：
- 任务泛化效果显著，例如多模态数学推理使AndroidWorld性能提升6.3%。
- 文本数学数据显著提升GUI网络智能体性能，WebArena提升5.6%，AndroidWorld提升5.4%。
- GUI感知数据对最终性能影响有限。

数据内容

数据类型：
- 图表/文档问答
- 非GUI感知
- GUI感知
- 网页截图转代码
- 非GUI智能体
- 多模态数学
- 多轮视觉对话
- 数学指令
- 奥林匹克数学
- 代码输入/输出
- 网页知识库

数据示例

领域	文本示例	图像示例
图表/文档问答	"What is the median value of female life expectancy at birth from 2009 to 2013?"	assets/multi_col_80624.png
非GUI感知	"The content presented in this diagram states SECRETARYS REPORT ON CALL FOR APPOINTMENT..."	assets/ztwc0228_1.png
GUI感知	"Concentrate on the part of the image bordered in red, What theme does the imagery contribute to?"	assets/1_annotated_viewpoint.png

性能结果

领域	WebArena (PR)	WebArena (SR)	AndroidWorld (SR)
GUI后训练	26.3	6.2	9.0
多模态数学	30.4	8.5	15.3
数学指令	31.9	10.9	14.4
GUIMid组合	34.3	9.5	21.2

引用

bibtex @article{zhang2025guimid, title={Breaking the Data Barrier -- Building GUI Agents Through Task Generalization}, author={Zhang, Junlei and Ding, Zichen and Ma, Chang and Chen, Zijie and Sun, Qiushi and Lan, Zhenzhong and He, Junxian}, journal={arXiv preprint arXiv:2504.10127}, year={2025} }

搜集汇总

数据集介绍

构建方式

在图形用户界面（GUI）智能体研究领域，高质量轨迹数据的稀缺性长期制约着模型性能的提升。GUIMid数据集创新性地采用中间训练阶段策略，通过整合多种推理密集型任务数据来突破这一瓶颈。研究团队系统性地收集了包括GUI感知、多模态推理和文本推理等七类任务数据，这些任务均具备现成的指令微调数据资源。数据构建过程中特别注重跨模态泛化能力的考察，例如将纯文本数学数据应用于视觉领域的GUI任务。

特点

该数据集展现出三大显著特征：任务泛化效应极为突出，多模态数学推理任务使AndroidWorld性能提升6.3%，而纯文本数学数据更在WebArena和AndroidWorld上分别实现5.6%和5.4%的跨模态提升；传统认知中的GUI感知数据对最终性能影响相对有限；通过优化任务组合策略，最终在WebArena和AndroidWorld基准上分别取得8.0%和12.2%的绝对性能增益。数据集涵盖图表问答、网页截图转代码等丰富模态，包含超过10万条高质量样本。

使用方法

研究人员可通过Hugging Face平台获取中间训练数据和后训练轨迹数据。使用流程建议分三个阶段：首先加载多任务预训练数据，重点关注数学推理和代码生成等核心任务；随后进行跨模态迁移学习，特别是将文本域知识迁移至GUI领域；最后结合特定下游任务进行微调。数据集提供标准化评估协议，包含WebArena的页面恢复（PR）和步骤恢复（SR）以及AndroidWorld的成功率（SR）三项核心指标，支持与GPT-4o等主流基线的对比实验。

背景与挑战

背景概述

GUIMid数据集由香港科技大学的研究团队于2025年发布，旨在解决图形用户界面（GUI）智能体训练中高质量轨迹数据稀缺的核心问题。该数据集通过引入多模态推理、文本推理等丰富任务，探索了中间训练阶段对GUI规划场景的泛化能力。研究团队发现，数学推理等非GUI任务能显著提升智能体在WebArena和AndroidWorld等平台的表现，这一突破性发现为跨模态学习提供了新的研究视角。GUIMid的发布为GUI智能体的训练范式带来了革新，推动了人机交互领域的发展。

当前挑战

GUIMid数据集面临的主要挑战体现在两个方面：在领域问题层面，GUI智能体需要克服视觉元素理解、多模态信息融合以及跨平台泛化等难题；在构建过程中，研究团队需解决大规模轨迹数据标注成本高昂、不同任务间数据分布差异显著，以及文本到视觉模态的知识迁移效率优化等技术瓶颈。这些挑战直接影响着GUI智能体的实际应用效果和推广潜力。

常用场景

经典使用场景

在图形用户界面（GUI）智能体研究领域，GUIMid数据集为探索多模态任务泛化提供了关键支持。该数据集通过整合丰富的视觉语言任务，如GUI感知、多模态推理和文本推理，为研究者构建了一个跨模态迁移学习的实验平台。尤其在AndroidWorld和WebArena等GUI交互基准测试中，该数据集展现了从数学推理到视觉任务的知识迁移能力，成为验证任务泛化假设的首选数据资源。

解决学术问题

GUIMid数据集有效解决了GUI智能体领域高质量轨迹数据稀缺的核心难题。通过系统化研究不同模态任务对最终性能的影响，该数据集揭示了文本数学推理对视觉任务的显著迁移效果（WebArena提升5.6%），同时修正了学界对GUI感知数据作用的认知偏差。这些发现为构建高效能GUI智能体提供了数据选择的理论依据，推动了多模态学习范式的革新。

衍生相关工作

GUIMid数据集催生了多个GUI智能体领域的创新研究。基于其构建的AGUVIS-72B模型在AndroidWorld达到26.1%的成功率，而OS-Genesis-7B则探索了图像与无障碍树的融合表示。该数据集还启发了对数学推理迁移机制的深入研究，相关成果被应用于提升医疗影像分析系统的解释性推理能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集