GUI-Xplore
收藏github2025-03-21 更新2025-03-29 收录
下载链接:
https://github.com/921112343/GUI-Xplore
下载链接
链接失效反馈官方服务:
资源简介:
GUI-Xplore是一个新颖的数据集,旨在增强GUI代理的跨应用和跨任务泛化能力。它提供了多样应用的探索视频,结合五个结构化下游任务,旨在推动可泛化GUI自动化的边界。
GUI-Xplore is a novel dataset designed to enhance the cross-application and cross-task generalization capabilities of GUI agents. It provides exploration videos of diverse applications paired with five structured downstream tasks, aiming to push the boundaries of generalizable GUI automation.
创建时间:
2025-03-21
原始信息汇总
GUI-Xplore数据集概述
1. 数据集简介
- 名称:GUI-Xplore
- 目的:增强GUI代理在跨应用和跨任务场景中的泛化能力
- 特点:提供探索视频和结构化下游任务,推动通用GUI自动化的发展
- 学术认可:被CVPR 2025接收
2. 核心特性
- 探索-推理范式:通过探索视频学习GUI代理
- 跨应用/任务泛化:无需显式重新训练即可适应新应用
- 大规模数据:
- 覆盖312个应用(33个子类别)
- 包含32,569个问答对
- 基准框架:Xplore-Agent(基于动作感知GUI建模和图引导环境推理)
3. 数据集构成
- 应用范围:6大类别(娱乐、生产力、健康、购物、旅行、新闻)
- 数据内容:
- 探索视频:115+小时
- 5个层次化下游任务:
- 应用概览
- 页面分析
- 应用使用
- 动作回忆
- 动作序列验证
4. 下载信息
- 存储位置:HuggingFace(https://huggingface.co/datasets/9211sun/GUI-Xplore)
- 数据格式:
- .mp4(视频)
- .json/.png(标注)
5. 基准模型(Xplore-Agent)
- 核心技术:
- 动作感知GUI建模
- 图引导环境推理
- 处理流程:
- 动作感知关键帧提取
- 视图层次结构生成
- GUI聚类
- GUI转换图构建
- 任务特定推理
6. 基准测试结果
跨应用泛化性能
| 方法 | 元素准确率 | 操作准确率 | StepSR |
|---|---|---|---|
| Xplore-Agent | 30.73% | 84.63% | 30.39% |
多任务评估
| 方法 | 综合得分 |
|---|---|
| Xplore-Agent | 64.24% |
7. 引用方式
bibtex @article{your2025gui-xplore, title = {GUI-Xplore: Exploration-Guided Generalization for GUI Agents}, author = {Yuchen Sun, Shanhui Zhao, Tao Yu, Hao Wen, Samith Va, Mengwei Xu, Yuanchun Li, Chongyang Zhang}, journal = {CVPR 2025}, year = {2025} }
8. 联系方式
- 邮箱:sunyc22@sjtu.edu.cn
- GitHub Issues:通过仓库提交问题
搜集汇总
数据集介绍

构建方式
在图形用户界面(GUI)智能体研究领域,GUI-Xplore数据集通过创新性的探索-推理范式构建而成。研究团队从312款涵盖娱乐、生产力、健康等六大类别的应用程序中,系统采集了超过115小时的用户交互视频,并基于关键帧提取技术构建了结构化表示。通过五层级的任务体系设计,包括应用概览、页面分析等维度,形成了32,569组问答对作为评估基准,为跨应用迁移学习提供了坚实基础。
使用方法
使用者可通过HuggingFace平台获取包含MP4视频、JSON和PNG标注的完整数据集。基准模型Xplore-Agent提供了一套标准化流程:首先通过动作感知的关键帧提取技术解析交互视频,继而构建视图层次结构和GUI转移图谱,最终利用大语言模型进行任务推理。研究者可基于五类下游任务开展实验,或通过提供的评估脚本对比模型在元素识别、操作准确率等指标上的表现。
背景与挑战
背景概述
GUI-Xplore数据集由上海交通大学的研究团队于2025年推出,旨在推动图形用户界面(GUI)智能代理的跨应用与跨任务泛化能力研究。该数据集作为CVPR 2025收录成果,突破了传统GUI自动化数据集的局限,通过探索视频与结构化下游任务的结合,为智能代理在复杂交互环境中的适应性学习提供了新范式。其核心研究问题聚焦于如何通过无监督探索实现GUI元素的语义理解与跨场景迁移,覆盖了312个应用、115小时交互视频及3.2万组问答对,已成为评估GUI代理通用性的重要基准。
当前挑战
GUI-Xplore面临的挑战主要体现在两方面:领域问题层面,现有模型在跨应用任务中仍存在显著性能落差,如基准测试显示最优模型的步骤完成率(StepSR)仅达30.39%,揭示了对动态GUI状态建模与长序列动作推理的共性难题;数据构建层面,需解决大规模多源应用交互视频的标准化采集问题,包括跨平台GUI元素对齐、用户意图标注歧义消除等。此外,探索视频与下游任务的语义关联构建要求创新的标注框架,以平衡自动化处理与人工验证的成本效益。
常用场景
经典使用场景
在图形用户界面(GUI)自动化研究领域,GUI-Xplore数据集通过提供跨应用和跨任务的探索视频,为开发通用GUI代理提供了丰富的训练和评估资源。该数据集覆盖了312个应用程序,涵盖娱乐、生产力、健康等多个子类别,结合五种结构化下游任务,使得研究人员能够全面测试代理在不同场景下的适应能力和推理能力。
解决学术问题
GUI-Xplore数据集解决了GUI代理在跨应用和跨任务泛化中的关键挑战。传统的GUI自动化方法通常依赖于特定应用的训练数据,难以适应新应用场景。该数据集通过探索视频和结构化任务,支持代理学习通用的GUI交互模式,显著提升了模型在未见应用上的表现,为通用GUI自动化研究提供了重要基准。
实际应用
在实际应用中,GUI-Xplore数据集为智能助手、自动化测试工具和辅助技术开发提供了重要支持。例如,基于该数据集训练的代理可以协助用户完成复杂的跨应用任务,如购物比价或旅行规划。此外,其探索视频和任务设计也为企业开发高效的自动化测试框架提供了参考。
数据集最近研究
最新研究方向
在图形用户界面(GUI)自动化领域,GUI-Xplore数据集的推出标志着跨应用与跨任务泛化研究迈入新阶段。该数据集通过探索视频与结构化下游任务的结合,为智能体提供了从交互轨迹中学习通用能力的新范式。前沿研究聚焦于三个核心方向:基于动作感知的GUI建模技术实现了对用户操作意图的精准捕捉,图引导环境推理机制突破了传统固定采样模式的局限性,而跨领域迁移学习框架则显著提升了智能体在未见应用中的适应能力。CVPR 2025的最新成果显示,Xplore-Agent在元素识别准确率(30.73%)和操作序列成功率(30.39%)等关键指标上超越现有基准模型,为医疗、金融等垂直领域的自动化流程优化提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



