GUIMid
收藏Hugging Face2025-04-21 更新2025-04-23 收录
下载链接:
https://huggingface.co/datasets/hkust-nlp/GUIMid
下载链接
链接失效反馈官方服务:
资源简介:
GUIMid数据集是一个包含9个不同任务的集合,其中有7个是视觉与语言任务,4个是仅语言任务。这个数据集旨在帮助研究者通过任务泛化构建GUI智能体。数据集包含多个.json文件,每个文件对应一个特定的任务。任务类别包括文本生成和问题回答,数据集使用英语,规模在10万到100万之间。
提供机构:
HKUST NLP Group
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
GUIMid数据集通过整合多种视觉与语言任务构建而成,涵盖图表问答、代码输入输出、图形用户界面感知等多样化领域。其构建过程采用严格的标注流程,确保数据质量与多样性,同时结合多模态数据增强技术,提升模型的泛化能力。数据集以JSON格式存储,便于研究人员直接加载与处理。
使用方法
研究人员可通过Hugging Face提供的下载指令便捷获取数据集,解压后即可直接使用JSON文件进行模型训练。针对不同任务需求,用户可选择特定子集进行针对性训练,如专注于视觉问答或代码生成等方向。数据集兼容主流深度学习框架,支持快速集成到现有训练流程中。
背景与挑战
背景概述
GUIMid数据集由香港科技大学自然语言处理团队开发,旨在通过任务泛化构建高效的图形用户界面(GUI)智能体。该数据集整合了11种跨模态任务,涵盖视觉与语言交互、数学推理、代码生成等多个领域,为GUI代理的中期训练提供了丰富的数据支持。其核心研究问题在于探索多任务学习对提升GUI代理泛化能力的贡献,特别是在网页导航、移动端操作等实际场景中的表现。通过系统性地比较不同领域数据对模型性能的影响,该研究为跨模态代理系统的训练范式提供了重要参考。
当前挑战
构建GUIMid数据集面临双重挑战:在领域问题层面,GUI代理需克服视觉元素理解、跨模态对齐和复杂任务分解等难题,例如从屏幕截图生成可执行代码的精确度问题;在数据构建过程中,研究团队需平衡不同任务类型的样本分布,确保数学推理、视觉对话等异质数据的兼容性,同时处理大规模图像标注与文本指令的语义一致性。评估环节还需设计能客观反映GUI代理综合能力的多维度指标,以应对网页操作成功率、移动端任务完成度等差异化评估需求。
常用场景
经典使用场景
在图形用户界面(GUI)智能体开发领域,GUIMid数据集通过整合多种视觉与语言任务,为研究者提供了一个跨模态任务泛化的基准平台。该数据集特别适用于训练和评估能够同时处理图像理解和自然语言交互的智能体系统,例如在网页导航、移动应用操作等复杂场景中实现自动化任务执行。
解决学术问题
GUIMid有效解决了多模态智能体训练中数据稀缺和领域泛化能力不足的核心问题。通过融合图表问答、视觉对话、数学推理等11个子任务,该数据集显著提升了模型在WebArena和AndroidWorld等基准测试中的任务完成率(PR/SR指标提升最高达12.2%),为跨平台GUI操作的通用智能体研究提供了关键数据支撑。
实际应用
该数据集已成功应用于智能客服系统、无障碍辅助工具等实际场景。在电商平台自动化测试中,基于GUIMid训练的模型可准确识别界面元素并完成商品筛选流程;在教育领域,其多轮视觉对话数据支持开发能解析数学题图的智能辅导系统,显著提升了人机交互的自然度。
数据集最近研究
最新研究方向
在图形用户界面(GUI)智能体研究领域,GUIMid数据集正推动多模态学习与任务泛化的前沿探索。该数据集通过整合视觉问答、代码生成、数学推理等11项异构任务,为构建通用型GUI代理提供了丰富的跨模态训练资源。当前研究热点集中于如何利用其多轮视觉对话和跨模态数学推理模块,提升智能体在WebArena等真实环境中的任务完成率。特别值得注意的是,该数据集在Web截图转代码、非GUI感知等子任务上的性能表现,为探索视觉语言模型在界面理解与操作间的映射关系提供了新的基准。这一研究趋势与行业对自动化测试、智能助手等应用的迫切需求相呼应,其提出的领域组合训练策略已展现出21.2%的AndroidWorld成功率提升,标志着GUI智能体从专用工具向通用化迈进的实质性突破。
以上内容由遇见数据集搜集并总结生成



