five

GUI-Xplore|GUI自动化数据集|跨任务泛化数据集

收藏
github2025-03-21 更新2025-03-29 收录
GUI自动化
跨任务泛化
下载链接:
https://github.com/921112343/GUI-Xplore
下载链接
链接失效反馈
资源简介:
GUI-Xplore是一个新颖的数据集,旨在增强GUI代理的跨应用和跨任务泛化能力。它提供了多样应用的探索视频,结合五个结构化下游任务,旨在推动可泛化GUI自动化的边界。
创建时间:
2025-03-21
原始信息汇总

GUI-Xplore数据集概述

1. 数据集简介

  • 名称:GUI-Xplore
  • 目的:增强GUI代理在跨应用和跨任务场景中的泛化能力
  • 特点:提供探索视频和结构化下游任务,推动通用GUI自动化的发展
  • 学术认可:被CVPR 2025接收

2. 核心特性

  • 探索-推理范式:通过探索视频学习GUI代理
  • 跨应用/任务泛化:无需显式重新训练即可适应新应用
  • 大规模数据
    • 覆盖312个应用(33个子类别)
    • 包含32,569个问答对
  • 基准框架:Xplore-Agent(基于动作感知GUI建模和图引导环境推理)

3. 数据集构成

  • 应用范围:6大类别(娱乐、生产力、健康、购物、旅行、新闻)
  • 数据内容
    • 探索视频:115+小时
    • 5个层次化下游任务:
      1. 应用概览
      2. 页面分析
      3. 应用使用
      4. 动作回忆
      5. 动作序列验证

4. 下载信息

  • 存储位置:HuggingFace(https://huggingface.co/datasets/9211sun/GUI-Xplore)
  • 数据格式
    • .mp4(视频)
    • .json/.png(标注)

5. 基准模型(Xplore-Agent)

  • 核心技术
    1. 动作感知GUI建模
    2. 图引导环境推理
  • 处理流程
    1. 动作感知关键帧提取
    2. 视图层次结构生成
    3. GUI聚类
    4. GUI转换图构建
    5. 任务特定推理

6. 基准测试结果

跨应用泛化性能

方法 元素准确率 操作准确率 StepSR
Xplore-Agent 30.73% 84.63% 30.39%

多任务评估

方法 综合得分
Xplore-Agent 64.24%

7. 引用方式

bibtex @article{your2025gui-xplore, title = {GUI-Xplore: Exploration-Guided Generalization for GUI Agents}, author = {Yuchen Sun, Shanhui Zhao, Tao Yu, Hao Wen, Samith Va, Mengwei Xu, Yuanchun Li, Chongyang Zhang}, journal = {CVPR 2025}, year = {2025} }

8. 联系方式

  • 邮箱:sunyc22@sjtu.edu.cn
  • GitHub Issues:通过仓库提交问题
AI搜集汇总
数据集介绍
main_image_url
构建方式
在图形用户界面(GUI)智能体研究领域,GUI-Xplore数据集通过创新性的探索-推理范式构建而成。研究团队从312款涵盖娱乐、生产力、健康等六大类别的应用程序中,系统采集了超过115小时的用户交互视频,并基于关键帧提取技术构建了结构化表示。通过五层级的任务体系设计,包括应用概览、页面分析等维度,形成了32,569组问答对作为评估基准,为跨应用迁移学习提供了坚实基础。
使用方法
使用者可通过HuggingFace平台获取包含MP4视频、JSON和PNG标注的完整数据集。基准模型Xplore-Agent提供了一套标准化流程:首先通过动作感知的关键帧提取技术解析交互视频,继而构建视图层次结构和GUI转移图谱,最终利用大语言模型进行任务推理。研究者可基于五类下游任务开展实验,或通过提供的评估脚本对比模型在元素识别、操作准确率等指标上的表现。
背景与挑战
背景概述
GUI-Xplore数据集由上海交通大学的研究团队于2025年推出,旨在推动图形用户界面(GUI)智能代理的跨应用与跨任务泛化能力研究。该数据集作为CVPR 2025收录成果,突破了传统GUI自动化数据集的局限,通过探索视频与结构化下游任务的结合,为智能代理在复杂交互环境中的适应性学习提供了新范式。其核心研究问题聚焦于如何通过无监督探索实现GUI元素的语义理解与跨场景迁移,覆盖了312个应用、115小时交互视频及3.2万组问答对,已成为评估GUI代理通用性的重要基准。
当前挑战
GUI-Xplore面临的挑战主要体现在两方面:领域问题层面,现有模型在跨应用任务中仍存在显著性能落差,如基准测试显示最优模型的步骤完成率(StepSR)仅达30.39%,揭示了对动态GUI状态建模与长序列动作推理的共性难题;数据构建层面,需解决大规模多源应用交互视频的标准化采集问题,包括跨平台GUI元素对齐、用户意图标注歧义消除等。此外,探索视频与下游任务的语义关联构建要求创新的标注框架,以平衡自动化处理与人工验证的成本效益。
常用场景
经典使用场景
在图形用户界面(GUI)自动化研究领域,GUI-Xplore数据集通过提供跨应用和跨任务的探索视频,为开发通用GUI代理提供了丰富的训练和评估资源。该数据集覆盖了312个应用程序,涵盖娱乐、生产力、健康等多个子类别,结合五种结构化下游任务,使得研究人员能够全面测试代理在不同场景下的适应能力和推理能力。
解决学术问题
GUI-Xplore数据集解决了GUI代理在跨应用和跨任务泛化中的关键挑战。传统的GUI自动化方法通常依赖于特定应用的训练数据,难以适应新应用场景。该数据集通过探索视频和结构化任务,支持代理学习通用的GUI交互模式,显著提升了模型在未见应用上的表现,为通用GUI自动化研究提供了重要基准。
实际应用
在实际应用中,GUI-Xplore数据集为智能助手、自动化测试工具和辅助技术开发提供了重要支持。例如,基于该数据集训练的代理可以协助用户完成复杂的跨应用任务,如购物比价或旅行规划。此外,其探索视频和任务设计也为企业开发高效的自动化测试框架提供了参考。
数据集最近研究
最新研究方向
在图形用户界面(GUI)自动化领域,GUI-Xplore数据集的推出标志着跨应用与跨任务泛化研究迈入新阶段。该数据集通过探索视频与结构化下游任务的结合,为智能体提供了从交互轨迹中学习通用能力的新范式。前沿研究聚焦于三个核心方向:基于动作感知的GUI建模技术实现了对用户操作意图的精准捕捉,图引导环境推理机制突破了传统固定采样模式的局限性,而跨领域迁移学习框架则显著提升了智能体在未见应用中的适应能力。CVPR 2025的最新成果显示,Xplore-Agent在元素识别准确率(30.73%)和操作序列成功率(30.39%)等关键指标上超越现有基准模型,为医疗、金融等垂直领域的自动化流程优化提供了新的技术路径。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录