GUIMid
收藏github2025-05-03 更新2025-05-04 收录
下载链接:
https://github.com/hkust-nlp/GUIMid
下载链接
链接失效反馈官方服务:
资源简介:
图形用户界面(GUI)代理的性能通常受限于高质量轨迹数据的稀缺性。为了解决这一限制,我们提出了在专门的中期训练阶段对视觉语言模型(VLMs)进行数据丰富、推理密集型任务的训练,并研究了将这些任务纳入中期训练阶段如何促进对GUI规划场景的泛化。我们发布我们的中期训练数据以供进一步研究。
The performance of graphical user interface (GUI) agents is often limited by the scarcity of high-quality trajectory data. To address this limitation, we propose training vision-language models (VLMs) on data-augmented, reasoning-intensive tasks during a dedicated intermediate training phase, and investigate how incorporating such tasks into this phase facilitates generalization to GUI planning scenarios. We release our intermediate training data for further research.
创建时间:
2025-04-10
原始信息汇总
GUIMid 数据集概述
数据集简介
- 目的:解决图形用户界面(GUI)智能体因高质量轨迹数据稀缺而性能受限的问题。
- 方法:通过在专门的中期训练阶段训练视觉语言模型(VLMs)来处理数据丰富、推理密集的任务。
- 关键发现:
- 任务泛化效果显著,例如多模态数学推理使AndroidWorld性能提升6.3%。
- 文本数学数据显著提升GUI网络智能体性能,WebArena提升5.6%,AndroidWorld提升5.4%。
- GUI感知数据对最终性能影响有限。
数据内容
- 数据类型:
- 图表/文档问答
- 非GUI感知
- GUI感知
- 网页截图转代码
- 非GUI智能体
- 多模态数学
- 多轮视觉对话
- 数学指令
- 奥林匹克数学
- 代码输入/输出
- 网页知识库
数据示例
| 领域 | 文本示例 | 图像示例 |
|---|---|---|
| 图表/文档问答 | "What is the median value of female life expectancy at birth from 2009 to 2013?" | assets/multi_col_80624.png |
| 非GUI感知 | "The content presented in this diagram states SECRETARYS REPORT ON CALL FOR APPOINTMENT..." | assets/ztwc0228_1.png |
| GUI感知 | "Concentrate on the part of the image bordered in red, What theme does the imagery contribute to?" | assets/1_annotated_viewpoint.png |
性能结果
| 领域 | WebArena (PR) | WebArena (SR) | AndroidWorld (SR) |
|---|---|---|---|
| GUI后训练 | 26.3 | 6.2 | 9.0 |
| 多模态数学 | 30.4 | 8.5 | 15.3 |
| 数学指令 | 31.9 | 10.9 | 14.4 |
| GUIMid组合 | 34.3 | 9.5 | 21.2 |
引用
bibtex @article{zhang2025guimid, title={Breaking the Data Barrier -- Building GUI Agents Through Task Generalization}, author={Zhang, Junlei and Ding, Zichen and Ma, Chang and Chen, Zijie and Sun, Qiushi and Lan, Zhenzhong and He, Junxian}, journal={arXiv preprint arXiv:2504.10127}, year={2025} }
搜集汇总
数据集介绍

构建方式
在图形用户界面(GUI)智能体研究领域,高质量轨迹数据的稀缺性长期制约着模型性能的提升。GUIMid数据集创新性地采用中间训练阶段策略,通过整合多种推理密集型任务数据来突破这一瓶颈。研究团队系统性地收集了包括GUI感知、多模态推理和文本推理等七类任务数据,这些任务均具备现成的指令微调数据资源。数据构建过程中特别注重跨模态泛化能力的考察,例如将纯文本数学数据应用于视觉领域的GUI任务。
特点
该数据集展现出三大显著特征:任务泛化效应极为突出,多模态数学推理任务使AndroidWorld性能提升6.3%,而纯文本数学数据更在WebArena和AndroidWorld上分别实现5.6%和5.4%的跨模态提升;传统认知中的GUI感知数据对最终性能影响相对有限;通过优化任务组合策略,最终在WebArena和AndroidWorld基准上分别取得8.0%和12.2%的绝对性能增益。数据集涵盖图表问答、网页截图转代码等丰富模态,包含超过10万条高质量样本。
使用方法
研究人员可通过Hugging Face平台获取中间训练数据和后训练轨迹数据。使用流程建议分三个阶段:首先加载多任务预训练数据,重点关注数学推理和代码生成等核心任务;随后进行跨模态迁移学习,特别是将文本域知识迁移至GUI领域;最后结合特定下游任务进行微调。数据集提供标准化评估协议,包含WebArena的页面恢复(PR)和步骤恢复(SR)以及AndroidWorld的成功率(SR)三项核心指标,支持与GPT-4o等主流基线的对比实验。
背景与挑战
背景概述
GUIMid数据集由香港科技大学的研究团队于2025年发布,旨在解决图形用户界面(GUI)智能体训练中高质量轨迹数据稀缺的核心问题。该数据集通过引入多模态推理、文本推理等丰富任务,探索了中间训练阶段对GUI规划场景的泛化能力。研究团队发现,数学推理等非GUI任务能显著提升智能体在WebArena和AndroidWorld等平台的表现,这一突破性发现为跨模态学习提供了新的研究视角。GUIMid的发布为GUI智能体的训练范式带来了革新,推动了人机交互领域的发展。
当前挑战
GUIMid数据集面临的主要挑战体现在两个方面:在领域问题层面,GUI智能体需要克服视觉元素理解、多模态信息融合以及跨平台泛化等难题;在构建过程中,研究团队需解决大规模轨迹数据标注成本高昂、不同任务间数据分布差异显著,以及文本到视觉模态的知识迁移效率优化等技术瓶颈。这些挑战直接影响着GUI智能体的实际应用效果和推广潜力。
常用场景
经典使用场景
在图形用户界面(GUI)智能体研究领域,GUIMid数据集为探索多模态任务泛化提供了关键支持。该数据集通过整合丰富的视觉语言任务,如GUI感知、多模态推理和文本推理,为研究者构建了一个跨模态迁移学习的实验平台。尤其在AndroidWorld和WebArena等GUI交互基准测试中,该数据集展现了从数学推理到视觉任务的知识迁移能力,成为验证任务泛化假设的首选数据资源。
解决学术问题
GUIMid数据集有效解决了GUI智能体领域高质量轨迹数据稀缺的核心难题。通过系统化研究不同模态任务对最终性能的影响,该数据集揭示了文本数学推理对视觉任务的显著迁移效果(WebArena提升5.6%),同时修正了学界对GUI感知数据作用的认知偏差。这些发现为构建高效能GUI智能体提供了数据选择的理论依据,推动了多模态学习范式的革新。
衍生相关工作
GUIMid数据集催生了多个GUI智能体领域的创新研究。基于其构建的AGUVIS-72B模型在AndroidWorld达到26.1%的成功率,而OS-Genesis-7B则探索了图像与无障碍树的融合表示。该数据集还启发了对数学推理迁移机制的深入研究,相关成果被应用于提升医疗影像分析系统的解释性推理能力。
以上内容由遇见数据集搜集并总结生成



