NovelScreenSpot
收藏arXiv2025-01-24 更新2025-01-25 收录
下载链接:
https://gui-bee.github.io
下载链接
链接失效反馈官方服务:
资源简介:
NovelScreenSpot是由加州大学圣克鲁兹分校和Adobe研究院共同创建的数据集,旨在评估GUI-Bee收集的数据在新型GUI环境中的对齐效果。该数据集包含5个新型GUI环境,数据来源于人类收集的查询,要求丰富的环境特定知识。通过GUI-Bee自主探索生成的数据,模型在这些新型环境中表现显著提升。该数据集主要用于GUI自动化领域,解决模型在新型环境中的动作定位问题。
NovelScreenSpot is a dataset co-created by the University of California, Santa Cruz and Adobe Research, aimed at evaluating the alignment performance of data collected by GUI-Bee in novel GUI environments. This dataset encompasses five novel GUI environments, with data sourced from human-collected queries that require rich environment-specific knowledge. Models leveraging data autonomously generated by GUI-Bee via autonomous exploration have achieved notable performance improvements in these novel environments. This dataset is primarily utilized in the field of GUI automation to address the action localization problem of models operating in novel environments.
提供机构:
加州大学圣克鲁兹分校, Adobe研究院
创建时间:
2025-01-24
搜集汇总
数据集介绍

构建方式
NovelScreenSpot数据集的构建基于GUI-Bee代理的自主探索过程。该代理通过多模态大语言模型(MLLM)在图形用户界面(GUI)环境中进行探索,预测并执行GUI操作,同时记录每次操作前后的屏幕截图。这些数据形成了探索图,进一步转化为用于模型微调的数据。为了优化探索效率和数据多样性,GUI-Bee采用了基于Q值的上下文强化学习(Q-ICRL)方法,通过上下文推理能力选择最优操作,确保探索覆盖更多信息。
特点
NovelScreenSpot数据集的特点在于其专注于新颖GUI环境中的动作定位任务。该数据集包含五个不同的GUI环境,涵盖了丰富的环境特定知识,尤其是与交互结果相关的查询。数据集中的查询由人工标注,确保了高质量和明确性。此外,数据集还提供了屏幕截图和可访问性树(A11y tree)作为输入,支持视觉和结构信息的结合,提升了模型在特定环境中的定位能力。
使用方法
NovelScreenSpot数据集的使用方法主要包括对现有GUI定位模型的持续微调。通过GUI-Bee代理收集的环境特定数据,模型可以在新颖环境中进行微调,从而提升其定位性能。数据集支持两种输入配置:仅视觉输入(Vision-only)和视觉加可访问性树输入(Vision+A11y)。模型在微调后,通过预测目标GUI元素的位置来评估其性能,确保模型能够准确响应用户的语言指令。
背景与挑战
背景概述
NovelScreenSpot数据集由加州大学圣克鲁兹分校和Adobe研究院的研究团队于2025年提出,旨在解决图形用户界面(GUI)动作定位中的环境适应性问题。该数据集的核心研究问题是如何通过自主探索收集高质量的环境特定数据,并利用这些数据对预训练的多模态大语言模型(MLLMs)进行微调,以提升其在未见过的新环境中的表现。NovelScreenSpot的提出标志着GUI自动化领域的一个重要进展,特别是在GUI动作定位模型的泛化能力和环境适应性方面。该数据集通过引入GUI-Bee代理,结合Q值激励的上下文强化学习(Q-ICRL)方法,显著提升了模型在新环境中的表现,为GUI自动化任务提供了新的解决方案。
当前挑战
NovelScreenSpot数据集面临的挑战主要体现在两个方面。首先,GUI动作定位任务本身具有高度的环境依赖性,模型在未见过的新环境中表现显著下降,如何有效收集和利用环境特定数据成为关键挑战。其次,在数据构建过程中,GUI-Bee代理在探索新环境时面临动作空间复杂性和屏幕过渡不确定性的问题。代理需要从大量可能的动作中筛选出有效且有意义的行为,同时避免重复或无效的探索。此外,如何通过Q-ICRL方法优化探索效率,确保生成的数据具有足够的多样性和覆盖度,也是数据集构建中的一大挑战。这些挑战的解决不仅提升了模型在新环境中的表现,也为GUI自动化任务的进一步发展提供了新的思路。
常用场景
经典使用场景
NovelScreenSpot数据集主要用于评估和优化图形用户界面(GUI)动作定位模型在新环境中的表现。通过该数据集,研究人员能够测试模型在未经过训练的新GUI环境中的适应能力,特别是在将自然语言指令映射到可执行GUI元素时的准确性。数据集的设计旨在模拟真实世界的GUI自动化场景,帮助模型在特定环境中进行持续微调,从而提升其在实际应用中的性能。
解决学术问题
NovelScreenSpot数据集解决了GUI动作定位模型在新环境中的泛化问题。传统的GUI动作定位模型通常依赖于有限的训练数据,导致在未见过的新环境中表现不佳。该数据集通过提供丰富的环境特定数据,帮助模型在推理阶段更好地适应新环境,从而显著提升其定位准确性。这一突破为GUI自动化领域的研究提供了新的方向,推动了多模态大语言模型(MLLMs)在GUI任务中的应用。
衍生相关工作
NovelScreenSpot数据集的推出催生了一系列相关研究工作,特别是在GUI动作定位和多模态大语言模型的结合领域。例如,基于该数据集的研究提出了GUI-Bee代理,通过自主探索和高质量数据收集来优化模型在新环境中的表现。此外,该数据集还启发了其他研究团队开发类似的基准测试工具,如VisualWebArena和Multimodal-Mind2Web,进一步推动了GUI自动化领域的技术进步。
以上内容由遇见数据集搜集并总结生成



